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摘 要 : 


目前 主流 的 人 工 智 能 ， 普 遍 采 用 “注意 力 机 制 + 深度 学 习 ”+“ 强 化 学 习 ” 
的 技术 道路 。 在 AIGC (Artificial Intelligence Generated Content) 领域 取 
得 了 长 足 进步 ， 折 起 了 大 模型 的 技术 浪潮 ”"”。 但 在 那些 需要 和 实际 环境 互动 的 
领域 ， 比 如 老人 护理 ， 家 庭 保 姆 ， 农 业 和 生产， 车辆 驾驶 等 领域 ， 试 错 成 本 很 高 ， 
需要 大 量 试 错 的 强化 学 习 过 程 难 以 实现 。 所 以 , 要 想 实 现 能 适用 于 任何 领域 的 通 
用 人 工 智 能 ,我们 既 要 利用 现 有 技术 ， 又 要 解决 现 有 技术 的 缺陷 ， 从 而 推动 人 工 
智能 的 技术 浪潮 进一步 发 展 。 在 本 文中 ， 我 们 分 析 了 大 模型 技术 路 线 的 局 限 性 ， 
并 针对 这 些 局 限 性 , 提出 了 解决 方案 , 从 而 解决 了 大 模型 的 固有 缺陷 。 在 本 文中 ， 
我 们 将 揭示 如 何 一 步 一 步 实现 通用 人 工 智 能 。 


关键 词 : 通用 人 工 智 能 AGI 强化 学 习 大 模型 ChatGPT GPT-4 


1， 引 言 


目前 主流 的 人 工 智能 大 模型 ， 带 来 了 通用 人 工 智 能 的 火花 "， 但 它 还 不 是 真 
正 意 义 上 的 通用 人 工 智 能 。 目 前 人 工 智 能 大 模型 的 能 力 上 限 在 哪里 ?“ 注 意 力 机 
制 + 深度 学 习 ”+“ 强 化 学 习 ” 能 实现 真正 的 “通用 人 工 智 能 ” 吗 ? 我 们 认为 目 
前 人 工 智 能 大 模型 无 法 解决 下 面 的 严重 缺陷 : 

1.1， 不 能 自主 解决 问题 。 

比如 目前 人 工 智能 ， 它 看 到 主人 摔 倒 时 ， 并 不 会 主动 过 来 帮忙 m。 这 是 因为 
机 器 没有 自己 的 需求 ， 就 不 可 能 产生 自己 的 目标 。 由 于 机 器 没有 自己 的 目标 ， 就 
不 可 能 主动 创建 一 个 任务 。 也 就 是 说 ， 大 模型 不 会 自主 创建 新 的 程序 流程 ! 

大 模型 本 质 就 是 一 种 编程 平台 。 使 用 的 编程 语言 就 是 自然 语言 多。 所 以 , 无 
论 我 们 添加 多 少 高 级 函数 到 大 模型 中 去 ， 也 无 论 我 们 集成 多 少 工具 、APP 到 大 模 
型 中 去 ， 大 模型 都 不 会 自发 地 去 创建 新 的 流程 。 它 所 有 的 流程 都 是 预 设 的 ， 要么 
来 自 于 程序 预 设 ， 要 么 来 自 于 数据 统计 。 这 两 种 方式 ， 本 质 上 都 是 “使 用 预 置 的 
流程 来 处 理 所 有 问题 ”外 BI09000023。 无 论 这 个 流程 中 有 多 少 if...else...， 考 虑 到 多 
少 种 可 能 性 ， 它 都 是 预 置 的 ， 预 先 就 存在 的 。 它 不 是 针对 具体 任务 ， 机 器 自我 创 
造 出 来 的 ! 所 以 ， 按 照 预定 流程 决策 的 机 器 ， 就 是 “ 书 呆 子 ” 型 机 器 智能 ， 决 策 
无 法 灵活 变通 , 难以 面 对 实 际 的 社会 生活 中 层出不穷 的 意外 情况 , 这 也 是 目前 人 
工 智能 的 窘境 。 

1.2， 知 识 无 法 实时 更 新 。 

目前 人 工 智 能 ， 采 用 大 数据 训练 ， 知 识 无 法 实现 实时 更 新 。 而 知识 的 实时 更 

新 ， 对 于 和 环境 互动 的 机 器 而 言 ， 至 关 重 要 。 因 为 机 器 和 环境 的 互动 ， 就 是 机 器 


获得 新 知识 的 过 程 。 如 果 机 器 所 获得 的 知识 无 法 实时 更 新 ， 就 会 导致 机 器 无 法 实 
时 根据 环境 的 反馈 来 更 新 自己 的 决策 知识 。 所 以 ， 这 样 的 机 器 ， 面 对 相同 的 输入 
信息 ， 就 会 不 断 犯 相同 的 错误 m。 

1.3， 无 法 适用 于 需要 和 真实 环境 互动 的 领域 。 

在 需要 和 真实 环境 互动 的 领域 ， 比 如 自动 驾驶 、 做 家 务 、 护 理 病人 等 领域 ， 
机 器 需要 建立 自己 行为 和 外 界 环境 之 间 的 互动 决策 知识 ,而 这 些 领 域 难以 大 量 地 
vw. 所 以 机 器 无 法 通过 强化 学 习 , 在 真实 的 环境 中 通过 互动 来 建立 这 些 领域 的 
决策 知识 mm。 

我 们 希望 ， 未 来 每 个 家 庭 ， 都 有 一 个 机 器 保姆 ;所 有 车 辆 ， 都 能 自动 驾驶 ; 
机 器 人 承担 所 有 的 工业 、 农 业 、 服 务 业 ， 人 类 主要 工作 就 是 享受 生活 的 美好 。 但 
目前 人 工 智能 的 技术 方案 ， 还 无 法 实现 上 述 场景 。 


2， 如 何 创建 知识 ? 
2.1， 如 何 描述 一 个 矩阵 包含 的 信息 ? 

虽然 一 个 矩阵 可 能 包含 很 多 信息 ， 但 我 们 可 以 通过 建立 一 套 坐 标 基 底 复 ,来 
表达 和 矩阵 中 所 有 信息 。 如 果 这 套 坐 标 基底 簇 是 完备 的 ， 是 正 交 的 ,就 可 以 最 简洁 
地 描述 和 矩阵 中 所 有 信息 。 如 果 我 们 建立 的 坐标 基底 艇 并 非 正 交 的 ， 但 是 完备 的 ， 
那么 我 们 同样 可 以 用 这 套 坐标 基底 复 来 表达 和 矩阵 中 任意 信息 。 如 果 坐 标 基 底 复 是 
非 完备 的 ， 那 么 矩阵 中 就 存在 一 些 矢 量 ， 无 法 通过 这 套 坐标 基底 簇 来 表达 ， 这 时 
我 们 就 需要 增加 坐标 基底 簇 的 维度 。 

如 果 基 底 坐 标 簇 是 本 征 正 交 基底 ， 那 么 我 们 实现 了 用 最 简洁 的 系数 来 表达 这 
个 矢量 的 全 部 信息 。 如 果 基 底 坐 标 簇 不 是 完全 正 交 的 , 那么 我 们 希望 它 尽 可 能 接 
近 正 交 基 底 艇 ,因为 这 时 我 们 获得 的 系数 矩阵 是 稀疏 的 (高 效 表达 ) 。 但 如 果 我 
们 只 关心 矩阵 中 部 分 常见 信息 , 我 们 就 可 以 用 常见 信息 模式 作为 坐标 基底 ， 这样 
的 基底 ， 对 整体 信息 而 言 ， 不 是 高 效 的 表达 方式 ， 但 对 于 那些 常用 信息 而 言 ， 则 
是 一 种 高 效 的 表达 方式 (系数 矩阵 是 稀 疏 的 ) 。 所 以 ， 如 果 我 们 生活 在 一 个 信息 
矩阵 空间 中 ， 当 我 们 需要 识别 、 分 析 和 生成 各 种 各 样 的 信息 时 ， 最 重要 的 就 是 : 
找到 信息 矩阵 空间 中 一 套 基 底 坐 标 艇 。 

2.2 人 类 是 如 何 创 建 知识 的 ? 

人 类 能 识别 的 信息 只 是 我 们 世界 中 信息 的 极 小 一 部 分 。 这 是 因为 ， 我们 人 类 
对 信息 的 分 辩 率 是 有 限 的 。 一 颗 小 草 上 A 原子 和 B 原子 排列 的 相对 时 空 关 系 ， 
也 是 一 种 信息 ， 但 我 们 不 会 去 识别 它 。 

所 以 人 类 在 进化 的 过 程 中 , 产生 了 Tokens 识别 能 力 。Tokens 就 是 人 类 常用 的 
最 小 信息 单元 ， 比 如 一 根 直线 。Tokens 本 身 就 是 一 种 “世界 模型 ”， 它 是 人 类 用 
于 搭建 宏伟 的 知识 殿 党 的 最 小 “世界 模型 ”。 人 类 在 进化 过 程 中 ， 形 成 了 采用 
Tokens 这 样 的 “模型 ”来 识别 周围 信息 的 “模式 识别 ”能 力 ， 极 大 的 提升 了 信息 
识别 的 能 效 比 。 这 是 进化 带 给 我 们 的 礼物 。 

所 以 我 们 把 人 类 习惯 使 用 的 最 小 信息 单元 ， 比 如 点 、 线 、 面 、 颜 色 、 纹 理 、 
曲 度 、 音 节 、 音 调 、 符 号 、 和 触觉、 温度 、 方 向 等 作为 Tokens， 那 么 我 们 人 类 就 生 
活 在 一 个 由 Tokens 组 成 的 4 维度 矩阵 中 《三 维 空间 + 时 间 维 度 ) 。 对 人 类 而 言 ， 
从 宇宙 大 爆炸 到 今天 ， 这 个 4 维 Tokens EE, WEE TARAR. 

人 类 对 其 中 的 常见 Tokens 组 合 ， 慢 慢 使 用 某 种 符号 (语言 符号 ) 来 代表 ， 这 
就 是 概念 。 人 类 使 用 概念 ， 来 描述 矩阵 中 的 任意 信息 (矢量 ) : 就 是 聊天 、 写 文 


章 。 而 这 些 概念 ， 就 是 我 们 所 处 信息 空间 矩阵 中 的 一 套 坐 标 基底 簇 。 

在 这 样 的 基底 复 下 ， 常 见 信 息 《〈 矢 量 ) 的 系数 表达 就 是 稀疏 的 。 比 如 “投资 
人 ”代表 “人 属 科 ， 有 钱 ， 想 赚 更 多 的 钱 ， 找 人 帮 他 赚 ， 承 担 风 险 ， 签 协议 ， 分 
享 收益 ...”。 

概念 包含 常见 Tokens 组 合 , 也 包含 语言 符号 。 而 且 由 于 语言 符号 更 加 频繁 的 
出 现 ， 它 代表 性 更 高 ， 可 能 成 为 一 个 概念 最 常用 的 入 口 。 

显然 ， 人 类 的 概念 ， 并 非 正 交 系 。 人 类 习惯 于 把 经 常 出 现 的 Tokens 组 合 ， 作 
为 一 个 概念 。 概 念 所 包含 的 Tokens 组 合 ， 可 能 存在 不 重 辣 、 部 分 重 芭 和 完全 包 
含 等 关系。 那些 存在 于 大 量 事物 中 的 共有 Tokens， 代 表 性 高 ， 但 分 辨 率 低 ， 数 量 
更 少 ， 它 们 代表 抽象 概念 。 在 抽象 概念 的 基础 上 ， 增 加 更 多 Tokens， 形 成 更 加 具 
体 的 概念 ， 其 代表 的 范围 缩小 ， 分 辨 率 更 高 。 

昌 然 这 样 的 坐标 基底 复 ， 表 达 全 部 信息 时 ， 效 率 并 不 高 。 但 它们 可 以 高 效 地 
表达 常见 信息 。 比 如 “ 猫 ”、“ 狗 ”这 样 的 概念 ， 可 能 存在 大 量 的 共有 Tokens, 
它们 是 非 正 交 的 。 但 对 人 类 表达 日 常 的 信息 时 ， 却 是 高 效 的 。 

而 且 ， 这 对 信息 的 泛 化 至 关 重 要 。 因 为 事物 的 属性 ， 本 质 上 是 有 组 成 它 的 
Tokens 属性 组 合 而 成 。 比 如 “ 猫 ” 是 一 种 常见 的 Tokens 在 空间 和 时 间 上 的 排列 
方式 ， 这 个 排列 方式 中 可 能 包含 “ 猫 ” 的 语言 、 文 字 、 声 音 、 图 像 、 动 作 、 触 觉 
等 等 多 模 态 矩阵 信息 元 素 。 这 个 排列 方式 中 , 部 分 矩阵 元 素 可 能 拥有 更 高 的 权重 ， 
因为 它们 更 加 常见， 它们 可 能 都 属于 “动物 ”这 个 概念 。“ 动 物 ” 包 含 的 元 素 更 
少 ， 其 适用 范围 就 更 大 ， 所 以 在 “ 猫 ” 和 “ 狗 ” 之 间 ， 通 过 它们 共有 的 Tokens 
(比如 和 “动物 ”这 个 概念 相关 的 Tokens) 连接 的 属性 就 可 以 直接 复 用 。 这 就 是 
信息 泛 化 过 程 ， 也 是 智能 的 起 源 。 

2.3 深度 学 习 的 工作 原理 是 什么 ? 

深度 学 习 中 ， 每 一 层 神经 网 络 的 系数 ， 背 后 是 一 组 隐 舍 的 坐标 基底 。A 层 神 
经 网 络 到 A«1 层 神经 网 络 ， 本 质 是 A 层 系数 矩阵 (和 A 层 对 应 的 隐 含 坐标 基底 
fE EKA TIRE) 到 B 层 系数 矩阵 (和 B 层 对 应 的 隐 伟 坐标 基底 簇 一 起 表达 了 
信息 ) 的 一 次 基底 变换 过 程 。 然后 通过 非 线 性 函数 , 对 信息 作 部 分 压缩 或 者 抛弃 。 
深度 学 习 的 本 质 是 使 用 “ 试 错 法 ”， 寻 找到 一 套 合 适 的 坐标 基底 徐 ， 可 以 让 输入 
信息 中 的 “有 用 信息 ”系数 矩阵 稀疏 化 。 

残 差 网 络 的 目的 是 减 小 每 一 层 神经 网 络 的 信息 损失 量 ， 使 得 机 器 可 以 进行 多 
次 变换 ， 从 而 有 更 大 概率 找到 优选 基底 复 。 正 则 化 的 目的 ,是 让 中 间 层 神经 网 络 
的 隐 含 基底 尽 可 能 靠近 正 交 系 , 这 样 避免 出 现 维度 之 间 的 彼此 影响 ， 从 而 避免 出 
现 局 部 最 优点 。 它 通过 迫使 中 间 层 的 系数 矩阵 靠近 稀 朴 化 矩阵 来 实现 这 一 目的 。 

深度 学 习 所 创建 的 高 维特 征 ， 也 就 是 它 的 信息 矩阵 中 的 一 套 坐 标 基底 秘 。 但 
它 没 有 “使 用 常见 Tokens 组 合 ” 这 个 约束 条 件 。 它 使 用 误差 约束 下 的 “ 试 错 法 ” 
建立 的 坐标 基底 艇 ,更 加 倾向 于 高 效 表 达 的 正 交 系 。 它 对 整体 有 用 信息 表达 效率 
更 高 ， 但 和 人 类 习惯 不 一 样 ( 人 类 只 需要 高 效 表达 那些 常见 信息 ) ， 所 以 “深度 
学 习 ” 和 “人 类 ”交流 就 是 “ 鸡 同 鸭 讲 ”， 双 方 说 不 到 一 块 。 

而 大 模型 中 ， 注 意 力 机 制 ， 本 质 就 是 通过 预 训练 获得 的 局 部 统计 知识 ， 来 预 
测 特定 Tokens 组 合 的 常见 程度 (出 现 概 率 ) ， 并 以 它们 成 为 优选 的 坐标 基底 簇 ， 
来 识别 、 分 析 和 生成 各 种 Tokens 组 合 。 

这 样 的 基底 复 ， 更 加 符合 人 类 的 习惯 。 所 以 大 模型 和 人 类 之 间 可 以 实现 语言 
交流 。 这 样 的 整体 表达 效率 不 一 定 高 ， 但 对 常见 信息 的 表达 效率 更 高 。 

2.4 注意 力 机 制 的 本 质 是 什么 ? 


注意 力 机 制 的 核心 ， 本 质 是 一 种 贝 叶 斯 推理 《〈 条 件 概率 ) 。 可 以 概况 为 “已 
知 N 个 Tokens 组 合 出 现 的 概率 ， 求 M 个 Tokens 组 合 出 现 的 概率 ”。 

在 人 类 的 语言 中 ，N 个 Tokens 的 组 合 几乎 无 穷 无 尽 ， 而 M Tokens 组 合 也 
是 无 穷 无 尽 的 。 所 以 机 器 不 可 能 通过 统计 解决 “已 知 N A Tokens 组 合 ， 求 M 个 
Tokens 组 合 出 现 的 概率 ”这 个 问题 。 

在 多 模 态 中 , 这 个 问题 就 更 加 突出 。 所 以 机 器 只 能 在 有 限 数 量 的 统计 基础 上 ， 
来 推测 “N 个 Tokens 组 合 出 现 后 ，M 个 Tokens 组 合 出 现 的 概率 ”。 这 就 是 注意 
力 机 制 的 本 质 。 预 训练 获得 的 权重 矩阵 就 是 有 限 数量 的 统计 知识 。 而 注意 力 机 制 
就 是 基于 有 限 数量 的 统计 知识 ， 来 推出 目前 Tokens，N 个 Tokens 组 合 后 ， 其 伴 
随 M 个 Tokens 出 现 的 概率 。 如 果 在 在 N+M 个 Tokens 中 ， 有 些 Tokens 权重 高 ， 
就 说 明 它 们 经 常 伴随 出 现 ， 所 以 它们 就 更 加 可 能 是 常见 Tokens 组 合 。 

这 就 是 注意 力 机 制 的 核心 机 制 , 它 就 是 一 种 寻找 Tokens 常见 排列 的 方法 。 它 
的 本 质 ， 可 以 认为 是 一 种 和 神经 网 络 结合 在 一 起 的 贝 叶 斯 推理 。 

所 以 注意 力 机 制 加 持 下 的 深度 学 习 ， 所 创建 的 坐标 基底 艇 ,更 加 符合 人 类 创 
建 概 念 的 习惯 。 所 以 大 模型 和 人 类 之 间 才 可 以 实现 语言 交流 [51。 

在 语言 模型 中 ，“ 常 见 Tokens 组 合 ” 就 是 “常用 语 ”。 它 既 包 含 常 见 Tokens 
的 组 织 形式 ， 这 类 似 于 语法 的 结构 ;也 包含 具体 “常用 语 ”; 由 于 机 器 的 统计 分 
析 能 力 远 远 超越 人 类 ， 所 以 机 器 发 现 的 “常用 语 (包含 语 法 ) ” 远 比 人 类 的 “ 常 
用 语 ” 规 模 庞大 的 多 。 

注意 力 机 制 ， 非 常 类 似 于 人 类 的 学 习 。 我 们 学 习 一 本 书 中 的 信息 时 ，“ 先 读 
注 ， 再 读 厚 ”就 是 同样 的 方法 。“ 先 读 注 ” 就 是 总 结 出 其 中 的 框架 性 信息 ， 这 是 
一 个 信息 压缩 过 程 ; 然后 “再 读 厚 ”， 就 是 在 框架 性 信息 的 基础 上 ， 添 加 不 同 的 
细节 (和 其 他 矢量 组 合成 新 的 矢量 ) ， 来 构成 新 知识 ， 这 就 是 一 个 信息 生成 过 程 
[17][18][19] 。 

2.5 大 模型 的 工作 原理 是 什么 ? 

在 大 模型 中 ， 当 信息 输入 后 ， 注 意 力 机 制 的 推理 过 程 ， 就 是 把 输入 矢量 向 坐 
标 基 底 簇 的 投影 过 程 。 注 意 力 机 制 获得 的 权重 ， 就 是 坐标 值 51。 

在 大 模型 中 , 输入 Tokens 在 第 一 层 向 权重 矩阵 中 矢量 投影 ， 这 是 一 个 矢量 分 
解 过 程 。 然 后 ， 进 行 第 二 层 投影 ， 这 就 是 输入 Tokens 组 合并 加 权 后 ， 以 组 合 的 
方式 ， 再 次 向 预 训练 权重 矩阵 的 Tokens 组 合 加 权 后 ， 进 行 投 影 过 程 (组 合 到 组 
合 投影 ) 。 经 过 多 层 注 意 力 机 制 操 作 后 ， 就 形成 了 多 个 输入 Tokens 组 合 到 预 训 
练 Tokens 组 合 的 投影 分 解 过 程 。 

而 最 后 一 层 注意 力 机 制 输出 的 权重 系数 和 矩阵， 和 它 背 后 隐 伟 的 坐标 基底 簇 

(以 常见 Tokens 组 合作 为 坐标 基底 艇 ) ， 共 同形 成 了 对 输入 信息 的 再 描述 ( 自 
注意 力 机 制 ) 。 

所 以 ， 大 模型 的 工作 原理 是 : (1) 它 以 预 训练 权重 矩阵 的 Tokens 组 合 为 基 
底 徐 ， 而 权重 矩阵 是 通过 试 错 法 ， 从 训练 材料 中 获得 的 局 部 统计 信息 ; (2) 它 
采用 注意 力 机 制 来 实现 输入 Tokens 组 合 向 权重 Tokens 组 合 的 投影 过 程 〈 矢 量 分 
解 ) ， 推 理 过 程 获得 的 权重 就 是 坐标 值 。 (3) 有 了 矢量 分 量 ， 就 可 以 找到 大 量 
的 临近 矢量 , 这 些 临 近 矢 量 对 应 的 下 一 个 矢量 , 就 是 输出 矢量 。 矢 量 的 临近 关系 ， 
以 输出 矢量 的 概率 形式 表现 出 来 。 

所 以 , 大 模型 就 是 一 个 自 回归 预测 模型 。 只 不 过 , 它 在 原始 的 输入 基底 上 (每 
一 个 Tokens 就 是 一 个 维度 ) ， 进 行 了 坐标 基底 簇 转 换 过 程 。 把 “每 一 个 Tokens 
就 是 一 个 维度 ”这 样 的 原始 基底 艇 ， 转 换 为 “常见 Tokens 组 合 后 ， 作 为 一 个 维 


度 ” 这 样 的 坐标 基底 复 。 然 后 进行 自 回 归 预 测 。 
2.6 大 模型 为 什么 会 有 能 力 涌 现 ? 在 什么 时 候 涌现 ? 

为 什么 大 模型 会 有 “涌现 ” 现象? 很 简单 的 道理 ， 比 如 一 个 美国 人 来 到 中 国 ， 
他 可 以 通过 我 们 人 类 之 间 大 量 的 共有 背景 信息 (比如 人 身 需 求 、 社 交 结 构 等 )， 
通过 中 等 数量 的 中 英文 对 比 ， 就 能 完成 正确 的 翻译 过 程 。 

但 大 模型 就 像 一 个 外 星人 ， 它 和 人 类 之 间 并 没有 共同 的 背景 信息 ， 它 看 到 的 
东西 ,只 有 人 类 信息 之 间 的 连接 方式 。 所 以 它 需要 提取 人 类 信息 之 间 的 连接 方式 ， 
来 预测 信息 的 发 展 过 程 。 一 开始 , 样本 不 够 时 , 它 提取 的 “信息 框架 ”和 人 类 “ 信 
息 框 架 ” 差 异 很 大 ， 所 以 它 会 不 断 犯 错误 ， 在 黑暗 中 摸索 ， 总 是 四 处 碰壁 。 随 着 
样本 数量 的 不 断 增 加 ,， 它 的 “信息 框架 ”和 人 类 “信息 框架 ”有 更 高 的 概率 对 齐 。 
但 这 不 是 一 个 线性 过 程 。 比 如 在 提升 到 某 一 个 阔 值 之 前 , 它 就 像 人 类 语言 学 家 解 
密 古 代 语 言 一 样 ， 在 黑暗 中 摸索 ， 进 展 甚 微 。 在 某 一 个 节点 上 ， 如 果 正 确 率 达到 
国 值 ， 整 个 解密 过 程 就 会 大 大 加 快 ， 急 速 完 成 。 这 就 是 “涌现 ”现象 。 机 器 “ 消 
现 ” 的 并 非 智 力 ， 而 是 找到 了 正确 的 “常见 的 Tokens 组 合 方式 ”。 因 为 评价 机 
器 能 力 的 标准 是 人 类 标准 , 所 以 当 它 的 基底 和 人 类 基底 接近 时 , 它 的 能 力 就 涌现 
出 来 了 。 

2.6 RLHF 能 最 终 解决 大 模型 面临 的 问题 吗 ? 

目前 大 模型 存在 两 个 严重 问题 : 

(1) 约 觉 问题 由。 

目前 大 模型 的 核心 能 力 , 是 把 输入 信息 转变 到 常见 Tokens 组 合 构成 的 坐标 基 
底 徐 〈 矢 量 投影 分 解 ) ， 这 是 一 个 信息 空间 的 基底 变换 过 程 。 

然后 它 利 用 获得 的 系数 矩阵 (注意 力 机 制 的 推理 权重 ) ， 可 以 找到 多 个 相似 
的 “ 预 训练 矢量 ”( 分 量 加 权 对 比 ，。 然 后 根据 这 些 相 似 的 “ 预 训 练 和 撩 量 ”， 按 
照 预 训练 获得 的 映射 关系 ， 找 到 “下 一 个 矢量 ”， 并 选择 其 中 一 个 输出 。 这 就 是 
自 回归 预测 过 程 ， 也 是 GPT 类 大 模型 的 工作 原理 。 

所 以 ， 大 模型 优化 的 是 “参数 ”。 而 每 一 个 参数 ， 背 后 对 应 的 是 一 组 Tokens 
组 合 。 表 面 上 ， 大 模型 在 优化 网 络 参 数 。 其 实质 ， 是 在 优化 常见 Tokens 组 合 ， 
也 就 是 说 ， 在 寻找 一 组 最 优 基 底 坐 标 复 。 神 经 网 络 的 每 一 层 系 数 ， 其 背后 都 对 应 
着 一 组 隐 含 的 基底 坐标 复 。 

大 模型 从 海量 数据 中 获得 的 只 有 “常见 Tokens 组 合 ”， 并 没有 事实 记忆 。 所 
以 面 对 输 入 Tokens， 大 模型 只 能 通过 分 解 输入 信息 到 “坐标 基底 徐 ” 上 ， 然 后 获 
得 不 同 概率 下 的 下 一 个 Tokens。 这 个 过 程 迭代 进行 ， 它 本 身 就 是 一 个 创造 过 程 。 
如 果 事 实 本 身 很 “常见 ”， 那 么 事实 会 以 “常见 Tokens 组 合 ” 的 形式 被 保留 下 
来 。 如 果 事 实 没 有 以 “常见 Tokens 组 合 ”被 保留 下 来 ， 或 者 事实 本 身 权 重 不 够 
高 ， 那 么 机 器 就 会 创造 信息 。GPT 本 身 就 是 信息 生成 ， 所 以 幻觉 问题 本 来 就 是 它 
本 职工 作 的 一 部 分 8319， 所 以 这 个 问题 ，GPT 无 解 。 

比如 ， 机 器 发 现 很 多 记者 的 简介 后 面 ， 都 会 有 记者 的 其 他 文章 网 页 链接 ， 或 
者 附 上 记者 过 去 获得 的 奖项 。 如 果 机 器 见 到 这 种 信息 组 织 模式 很 多 ,那么 这 种 信 
息 组 织 模式 就 会 成 为 “框架 ”到 “框架 ”的 映射 。 所 以 如 果 输 入 信息 中 包含 了 类 
似 的 框架 ,但 只 是 记者 名 字 不 一 样 ， 那 么 机 器 都 可 以 通过 “框架 + 细节 ”， 了 映射 
到 “框架 + 细节 ”， 从 而 在 输出 也 产生 很 多 网 页 链接 ， 或 者 是 奖项 。 但 这 些 网 页 
链接 和 奖项 也 是 通过 “框架 + 其 他 矢量 ”映射 到 “框架 + 其 他 矢量 ”建立 的 ， 它 们 
很 可 能 根本 就 不 存在 ! 

为 了 解决 大 模型 的 幻觉 问题 ， 很 多 人 指望 外 挂 “ 疝 量 数据 库 ”， 让 大 模型 去 


查询 事实 知识 来 消除 幻觉 。 这 是 试图 采用 百科 全 书 来 实现 通用 人 工 智 能 的 另外 一 
个 版 本 。 无论 是 “ 疝 量 数据 库 ”,， 还 是 “知识 图 谐 ”， 根 本 不 可 能 解决 幻觉 问题 ! 
因为 ， 这 些 知识 是 外 挂 的 ， 和 大 模型 自身 的 知识 是 无 法 融 为 一 体 的 。 它 们 就 像 一 
位 普通 人 拿 一 本 词典 ， 束 试图 开 一 家 翻译 公司 一 样 。 当 年 专家 系统 碰 到 的 问题 ， 
它 都 会 碰 到 。 

(2) 有 害 内 容 的 问题 中 。 

大 模型 中 ， 注 意 力 机 制 是 对 的 ， 但 深度 学 习 有 缺陷 。 

在 大 模型 中 ， 基 于 Self- attention 的 Transform 模型 ， 加 入 了 位 置 编 码 ， 其 主 
要 目的 是 增加 Tokens 位 置信 息 ， 使 其 可 以 利用 每 个 元 素 相互 之 间 的 位 置 关 系 。 
这 对 注意 力 机 制 而 言 是 必须 的 ， 因 为 注意 力 机 制 就 是 要 找到 Tokens 的 时 间 、 空 
间 关 系 。 

但 通过 多 层 的 深度 学 习 网 络 ， 在 误差 约束 下 ， 大 模型 进行 了 多 次 坐标 基底 变 
换 后 ， 找 到 了 “最 优 坐 标 基 底 复 ”。 但 这 种 “最 优 坐 标 基 底 复 ”的 Tokens 组 合 ， 
和 原始 Tokens 的 时 间 、 空 间 关 系 不 再 一 样 。 虽 然 它 可 能 依然 保留 有 Tokens 之 间 
的 部 分 组 织 信息 《因为 深度 学 习 过 程 是 不 可 逆 的 ， 所 以 Tokens 的 位 置信 息 只 会 
有 部 分 被 保留 ) ， 但 却 难 以 为 人 类 所 理解 和 利用 。 所 以 ， 我们 认为 深度 学 习 破 坏 
了 Tokens 的 原 有 时 间 / 空 间 上 的 组 织 形式 。 

我 们 可 以 认为 大 模型 执行 了 一 次 有 损 的 翻译 过 程 , 把 人 类 的 Tokens 组 合 次 序 ， 
翻译 为 它 的 语言 了 。 但 问题 是 ， 人 类 并 没有 掌握 大 模型 的 语言 ， 所 以 人 类 无 法 理 
解 大 模型 创建 的 知识 ， 也 无 法 模仿 其 知识 组 织 形 式 ， 给 大 模型 植 入 “先天 知识 ”， 
这 就 是 问题 的 核心 所 在 。 

而 且 由 于 大 模型 无 法 实现 小 样本 、 累 计 学 习 ， 它 需要 超大 样本 ， 知 识 一 次 成 
形 ， 这 进一步 增加 了 人 类 理解 其 知识 组 织 形式 的 难度 。 

因为 机 器 没有 自身 的 需求 ， 机 器 就 不 可 能 有 自我 感知 的 奖励 和 惩罚 。 机 器 没 
有 自我 感知 的 奖励 和 惩罚 ， 束 不 可 能 自发 创建 矢量 (信息 ) 到 奖励 或 者 惩 神 维度 
的 投影 。 也 就 是 说 ， 机 器 所 创建 的 基底 坐标 复 中 ， 缺 乏 了 奖励 、 惩 如、 快乐 、 翡 
伤 等 人 类 特有 的 ， 也 必须 要 有 的 基础 维度 ! 

目前 大 模型 采用 的 补救 方法 是 RLHF。 这 相当 于 人 类 事后 给 特定 矢量 后 面 增 加 
一 个 奖励 维度 的 后 缀 。 也 就 是 说 ， 机 器 的 基底 坐标 复 中 ， 增 加 了 一 个 奖励 维度 。 
如 果 在 训练 数据 中 ,在 大 量 不 同类 型 ， 足 够 数量 矢量 上 ， 增 加 在 奖励 维度 上 的 分 
量 值 ， 就 相当 于 建立 了 这 些 训练 矢量 中 的 共有 的 分 量 组 合 ， 到 奖励 维度 的 投影 。 
这 就 是 机 器 的 奖励 函数 。 所 以 ， 机 器 也 可 以 预测 不 同 决 策 下 ,也 就 是 按照 不 同 的 
组 合 方式 产生 的 输出 矢量 中 , 包含 的 奖励 分 量 。 所 以 ,， 机 器 会 优选 奖励 分 量 高 的 
输出 。 这 就 是 RLHF 学 习 带 来 的 惊人 效果 。 因 为 通过 RLHF 学 习 的 知识 ,实际 上 是 
可 以 泛 化 的 。 当 一 个 机 器 有 了 自身 的 奖励 、 惩 如 维度 ， 就 有 了 自己 初步 的 “ 趋 利 
避 害 意识 ”， 这 就 是 为 什么 我 们 会 从 目前 大 模型 看 到 “意识 ”的 腾 肛 影 子 。 

但 这 是 一 种 事后 打 补 丁 的 方式 , 意味 着 需要 机 器 先 尝 试 , 然后 人 类 打分 反馈 ， 
它 只 能 用 于 可 以 大 量 试 错 的 领域 .这 类 似 于 一 个 孩子 博士 毕业 了 ,但 完全 没有 “是 
韭 ” 观 念 ， 父 母 只 能 跟 在 屁股 后 ,， 喊 “No”，“No”，“Yes” 来 赋予 他 “是 非 ” 
观念 ， 而 且 他 和 父母 还 无 法 直接 交流 ， 只 能 通过 “Yes” 和 “No” 来 沟通 。 所 以 ， 
这 样 的 学 习 效 果 效 率 低 ， 而 且 永 远 可 能 碰 到 那些 意 想 不 到 的 corner case! 


3 注意 力 机 制 + 深度 学 习 + 强 化 学 习 , 是 通用 人 工 智 能 的 正确 道路 吗 ? 


3.1 大 模型 就 可 以 实现 通用 人 工 智能 了 吗 ? 

我 们 认为 ， 大 模型 证 明了 它 的 大 方向 是 正确 的 。 但 我 们 并 不 认为 大 模型 是 实 
现 通用 人 工 智 能 的 正确 道路 。 

在 NLP 方面 ， 人 类 从 早期 的 词 袋 模型 、 词 向 量 到 EMLOca， 直 到 Transformer, 
才 真 正 地 实现 了 注意 力 机 制 。 把 深度 学 习 和 注意 力 机 制 结合 起 来 后 中 ,就 能 产生 
类 似 于 人 类 表达 方式 的 优化 的 坐标 基底 艇 ， 这 就 是 Transformer 能 产生 智力 “ 消 
现 ” 的 原因 。 

但 我 们 注意 到 ， 大 模型 采用 的 道路 是 “ 先 矢量 化 ， 建 立 初 步 关 系 ; 然后 通过 
试 错 法 ,来 调整 坐标 基底 复 ; 然后 在 优选 的 坐标 基底 复 下 ， 再 次 矢量 化 ， 获 得 正 
确 的 关系 ”。 这 样 的 机 制 ， 导 致 需要 的 数据 量 极 大 ， 计 算 量 极 大 ， 并 且 知 识 是 通 
过 训练 过 程 一 次 成 型 ， 难 以 实时 更 新 zal。 

同时 ， 奖 励 函 数 是 在 事后 出 现 的 ， 这 对 那些 难以 试 错 的 领域 ， 比 如 真实 环境 
下 的 互动 决策 (自动 驾驶 、 家 庭 保 姆 、 工 业 、 农 业 、 商 业 、 服 务 业 、 政 府 管 理 等 )， 
无 法 适用 。 

另外 ， “面向 任务 ， 搞 强化 学 习 ” 这 种 思想 是 错误 的 。 人 类 之 所 以 “通用 ”， 
是 因为 我 们 面 对 一 切 任务 ， 都 按照 “ 趋 利 避 害 ” 来 决策 。 机 器 也 应 该 这 样 。 任 务 
千 千 万 ， 面 向 任务 搞 强化 学 习 ， 永 远 也 学 不 完 ! 而 且 很 多 任务 试 错 成 本 很 高 ! 
3.2 什么 样 的 道路 ， 才 是 走向 通用 人 工 智能 的 正确 道路 ? 

目前 大 模型 的 问题 是 : 

(1) 注意 力 机 制 是 对 的 。 但 深度 学 习 有 缺陷 。 

因为 深度 学 习 破 坏 了 Tokens 的 原 有 时 间 / 空 间 组 织 形式 。 导 致 产生 的 知识 ， 
难以 被 理解 , 无 法 被 模仿 。 所 以 人 类 无 法 模仿 其 组 织 形式 , 给 机 器 置 入 先天 的 “ 自 
我 需求 ”〔 先 天 知识 )。 

机 器 没有 “自我 需求 ”， 就 不 可 能 有 “自己 的 想法 ”， 束 不 可 能 “自主 决策 ”。 

这 样 ， 机 器 就 只 能 按照 预定 流程 (或 预 设 ， 或 统计 ) ， 被 动 “ 决 策 ”， 无 法 
灵活 变通 ， 这 是 目前 Al 的 大 问题 。 

(2) “面向 任务 ， 搞 强化 学 习 ” 这 种 思想 是 错误 的 。 

人 类 之 所 以 “通用 ”， 是 因为 我 们 面 对 一 切 任务 ， 都 按照 “ 趋 利 避 害 ”来 决 
策 。 机 器 也 应 该 这 样 。 任 务 干 和 二 万 ， 面 向 任务 搞 强 化 学 习 ， 永 远 也 学 不 完 ! 而 且 
很 多 任务 试 错 成 本 很 高 ! 比如 照顾 孩子 , 没有 人 愿意 把 自己 的 孩子 交 给 机 器 做 实 
验 ! 

所 以 ， 我 们 的 解决 方案 是 : 

(OD 既 实 现 注 意 力 机 制 ， 又 不 破坏 Tokens 原 有 的 时 间 / 空 间 组 织 形式 。 所 创 
建 的 知识 可 以 被 理解 ， 可 以 被 模仿 。 

(2) 我 们 可 以 模仿 知识 的 组 织 形式 ， 给 机 器 赋予 “先天 需求 "。“ 先 天 需求 ” 
作为 一 类 特殊 Tokens， 和 其 他 Tokens， 通 过 注意 力 机 制 形成 常见 组 合 。 这 些 常见 
组 合 就 是 常识 〈 这 就 是 世界 模型 ) ! 

(3) 机 器 只 学 一 件 事 “ 如 何 满 足 自 我 需求 "， 也 只 处 理 一 件 事 “ 如 何 满足 自我 
需求 "。 这 就 是 通用 决策 。 

(4) 因为 没有 破坏 原 有 Tokens 的 时 间 / 空 间 组 织 形 式 ， 所 以 机 器 可 以 通过 语 
言 符号 直接 获得 Tokens 的 时 间 、 空 间 排 列 方式 。 并 且 这 种 排列 方式 可 以 被 理解 ， 
可 以 被 模仿 ， 所 以 机 器 可 以 通过 语言 学 习 ， 直接 获得 人 类 文明 史上 积累 的 所 有 经 
验 ! 机 器 不 再 需要 走 一 遍 “ 进 化 史 ”! 


4 实现 通用 人 工 智能 的 Step by Step 步骤 。 


下 面 是 实现 我 们 方案 的 10 个 步骤 。 

Step 1， 把 信息 Tokens 化 。 (和 其 他 Al 技术 一 样 ) 

Step 2， 把 Tokens ÆR. (建立 记忆 库 ) 

Step 3， 输 入 Tokens 按照 相似 性 关系 ， 问 记忆 库 中 Tokens 传播 激活 值 。 

Step 4， 所 有 被 激活 的 Tokens， 按 照 临 近 关 系 ， 辐 临近 的 Tokens 传播 激活 值 。 

Step 5， 每 一 个 被 激活 的 Tokens， 又 按照 相似 激活 和 临近 激活 原则 ， 在 记忆 
库 中 链 式 传播 激活 值 。 

其 中 ，Step3~Step5 中 ， 相 似 度 越 高 ， 传 递 系数 越 大 。 存 储 位 置 越 临近 ， 传 
递 系 数 越 大 。Tokens 的 记忆 值 越 高 ， 传 递 系 数 越 大 。 

Step 6， 每 个 Token 从 不 同 传播 路 径 获 得 的 激活 值 ， 进 行 累计 。 

Step 7， 所 有 Tokens 的 激活 值 ， 都 随时 间 消 退 。 

其 中 ，Step3~Step7 是 链 式 联 想 激 活 过 程 ， 这 就 是 注意 力 机 制 的 推理 过 程 ， 
激活 值 就 是 推理 权重 。 

Step 8， 每 个 Token 按照 其 获得 的 激活 值 大 小 ， 按 照 正 相 关 来 更 新 记忆 值 。 
并 且 ， 所 有 的 记忆 值 都 按照 时 间 而 消退 。 

每 个 Token 的 记忆 值 就 是 它 的 预 训练 权重 值 。 在 记忆 中 ， 存 在 大 量 的 Tokens 
组 合 方式 ， 那 些 能 重复 出 现 的 Tokens 组 合 方式 ， 它 们 包含 的 Tokens 每 次 都 能 彼 
此 激活 ， 相 互 推 高 激活 值 ， 从 而 获得 更 高 的 记忆 值 。 所 以 如 果 多 个 Tokens 构成 
的 组 合 出 现在 输入 中 ， 和 这 个 组 合 相 关 的 记忆 中 Tokens 组 合 就 有 更 高 的 概率 获 
得 高 注意 力 权 重 。 所 以 ， 链 式 联 想 激 活 过 程 是 一 个 “Tokens 组 合 ”优先 的 激活 值 
传播 过 程 。 

Step 9， 预 置 最 小 先天 需求 先天 知识 ,由 Tokens+ 记 忆 值 + 排列 方式 组 成 。)。 
先天 需求 ， 就 是 模仿 知识 的 组 织 形 式 ， 建 立 的 先天 知识 。 先 天 知识 可 以 包括 最 小 
的 先天 需求 、 奖 罚 、 情 绪 和 必要 的 先天 安全 本 能 知识 ， 当 然 ， 也 可 以 预 置 其 他 知 
识 。 这 些 知识 是 作为 记忆 库 的 一 部 分 存在 的 ， 和 后 天 形成 的 记忆 无 颖 融合 ， 形 成 
整体 记忆 库 。 对 先天 知识 的 “Fine Tuning” 是 通过 积累 后 天 的 知识 (包含 反馈 ) 
来 实现 的 。 

step10， 让 先天 需求 、 奖 罚 和 情绪 (使 用 特殊 的 Tokens KRK) ， 和 后 天 信 
息 ( 普 通 Tokens 信息 流 ) ， 在 机 器 的 训练 中 和 生活 中 ， 形 成 时 间 信 息 流 ， 并 被 
存储 。 然 后 通过 链 式 联想 激活 过 程 + 注意 力 机 制 ， 形 成 全 连接 知识 网 络 〈 记 忆 
库 ) 。 

我 们 的 方案 ， 最 后 形成 这 样 一 个 记忆 库 : 每 一 个 Token， 都 是 一 条 数据 记录 。 
它们 由 表 1 所 示 的 4 个 字段 构成 。 

表 1， 每 一 条 Token 数据 的 组 成 。 


字段 1 


时 间 标 记 


大 量 Tokens 按照 时 间 间 隔 存储 起 来 ， 通 过 优化 《通过 链 式 联想 激活 过 程 + 记 
忆 和 遗 筷 机 制 来 优胜 劣 汰 ) ， 就 形成 了 知识 网 络 。 

知识 网 络 ， 就 是 记 ， gis 其 中 的 网 络 节点 ， 就 是 Tokens。 其 中 的 网 络 连 线 ， 
就 是 激活 值 传递 关系 。 但 需要 特别 指出 ， 激 活 值 传递 关系 是 由 Tokens 的 相对 位 
置 、Tokens 的 记忆 值 和 e. 之 间 的 相似 性 ， 以 及 Tokens 获得 的 初始 激活 值 大 
小 来 决定 的 ， 所 以 是 先 有 输入 Tokens 后 ， 然 后 临时 建立 Tokens 之 间 的 激活 值 传 
递 关 系 ， 这 种 传递 关系 并 不 是 固定 的 。 

其 中 的 记忆 值 ， 就 代表 了 预 训 练 权重 ， 其 中 的 激活 值 ， 就 代表 了 注意 力 机 制 
下 的 推理 权重 。 所 以 ， 在 我 们 的 方案 中 ， 知 识 获 取 和 推理 应 用 融 为 一 体 ， 先 天 知 
识 和 后 天 知识 融 为 一 体 。 

在 记忆 库 中 ， 既 有 客观 Tokens， 又 有 主观 Tokens， 它 们 通过 注意 力 机 制 形成 
的 连接 关系 就 是 “信息 ”。 所 有 Tokens 的 排列 关系 就 是 全 部 信息 ， 它 的 维度 很 
高 。 而 “知识 ”就 是 能 够 重复 出 现 的 排列 方式 (包括 时 间 、 空 间 〉， 它 们 是 信息 
中 能 够 重复 出 现 的 那 一 部 分 ， 所 以 他 们 包含 的 Tokens 更 少 ， 代 表 性 更 高 ， 适 用 
范围 更 大 ， 更 抽象 ， 所 以 他 们 的 维度 更 少 。 而 常识 ” 则 进一步 限定 为 我 们 人 类 常 
见 的 “知识 ”。 

我 们 的 机 器 ， 记 忆 库 是 可 以 置 入 、 修 改 或 者 合并 的 ， 所 以 机 器 之 间 的 知识 是 
可 以 通过 记忆 库 直接 合并 而 共享 的 。 比 如 ， 一 个 厨师 机 器 人 ， 通 过 载 入 医生 机 器 
人 的 记忆 ， 就 可 以 直接 获得 医生 的 各 项 技能 。 而 不 需要 再 次 把 “厨师 大 数据 ”和 
“医生 大 数据 ”合并 后 ， 花费 数 和 干 万 美金 和 几 个 月 时 间 ， 重新 做 预 训练 。 

4.1 每 个 步骤 的 详细 说 明 。 
Step1， 把 信息 Tokens 化 。 

机 器 只 需要 把 输入 信息 打 散 ， 按 照 整体 优先 ， 按 照 低 分 辨 率 优 先 ， 提 取 其 中 
的 底层 Tokens〔 比 如 图 像 的 整体 轮廓 ， 纹 理 ， 拓 扑 、 线 条 ， 角 、 疹 、 顶 点 等 ， 语 
音 时 域 / 频 域 音调 、 音 色 等 主要 底层 Tokens) 。 

E NE 依次 存 入 记忆 库 就 OK。 特 别 强调 : 不 需要 去 识别 它们 ， 存 
下 来 就 OK。 即 使 一 开始 提取 的 Tokens 比较 随机 ， 算 法 不 完善 ， 也 没有 关系 。 因 
为 我 们 这 套 算 法 ， 是 通过 不 断 积累 的 常见 Tokens 组 合 ( 也 就 是 “世界 模型 ”》， 
在 后 续 指 导 机 器 如 何 “ 按 需 提 取 ”! 常见 Tokens 组 合 ， 既 包含 常见 Tokens, X 

含 它们 的 组 织 形式 。 

所 以 机 器 提取 Tokens 这 个 过 程 ， 是 一 个 逐步 优化 的 过 程 。 将 Tokens 存 入 记 
忆 库 后 ， 随 后 按照 链 式 联想 激活 过 程 ， 记 忆 和 遗忘 机 制 ， 不 断 改 变 这 些 Tokens 
的 记忆 值 和 激活 值 。 通 过 优胜 劣 汰 ， 那 些 广泛 存在 的 Tokens， 或 者 Tokens 组 合 
会 被 保留 下 来 ， 形 成 更 加 复杂 的 Tokens。 而 那些 很 少 能 重复 的 Tokens 则 会 被 淘 
汰 ， 它 们 不 再 被 提取 。 

FEEL, 机 器 处 理 Tokens 的 策略 也 是 : 寻找 那些 广泛 存在 的 原始 数据 组 合 ， 作 
为 Tokens。 这 是 常见 信息 组 合 优先 原则 在 确定 Tokens 构成 上 的 应 用 。 这 一 点 ， 
类 似 于 人 类 ， 它 是 进化 带 给 人 类 的 礼物 。 因 为 提取 Tokens 这 样 的 底层 程序 ， 需 
要 广泛 的 复 用 ， 才 能 达到 能 量 的 最 大 效用 。 

Step2, 18 Tokens 和 矩阵 化 。 

每 一 个 Token， 对 应 记忆 库 中 的 一 条 记录 ， 它 有 4 个 字段 ， 如 表 1 所 示 。 记 
忆 值 大 小 表示 记忆 强度 ， 为 零 则 会 被 删除 。 激 活 值 大 小 表示 被 激活 的 强度 ， 为 零 
表示 没有 被 激活 。 所 有 记录 按照 同时 性 存储 方法 ， 就 自发 构成 了 整个 记忆 库 。 

关于 同时 性 存储 方法 ， 有 具体 实施 方式 包括 : 


(2.1) 机 器 保留 Tokens 出 现在 输入 信息 中 的 时 间 相 对 位 置 。 

一 种 实现 方法 是 : 机 器 使 用 Tokens 在 存储 空间 中 的 距离 来 反映 这 些 Tokens 
被 存储 的 时 刻 之 间 的 时 间距 离 , 比如 机 器 按照 输入 的 时 间 次 序 来 依次 存储 Tokens, 
时 间 越 临近 的 Tokens， 存 储 位 置 越 临近 ; 

另外 一 种 保留 时 间 相 对 位 置 的 存储 方法 是 每 个 Tokens 都 带 有 记忆 空间 中 的 
坐标 ;记忆 空间 中 的 坐标 ， 主 要 包括 Tokens 的 存储 时 间 信 息 ; 

机 器 保留 Tokens 出 现在 输入 信息 中 的 空间 相对 位 置 ; 一 种 实现 方法 是 : 机 器 
把 每 一 次 提取 的 Tokens， 按 照 和 原始 数据 相似 度 最 高 的 位 置 、 角 度 和 大 小 ， 把 它 
们 和 原始 数据 重 膨 放置 ， 并 在 存储 时 保留 这 些 Tokens 在 空间 上 的 相对 位 置 ; 

实现 方法 还 可 以 是 : 整体 低 分 辨 率 Tokens 优先 提取 ， 然 后 根据 机 器 的 决策 ， 
再 按 需 提取 其 他 局 部 Tokens。 这 样 ,通过 临近 存储 关系 ,局 部 Tokens 和 整体 Tokens 
既 存 在 临近 激活 关系 ， 又 存在 Tokens 之 间 的 相似 性 关系 ， 所 以 它们 会 彼此 激活 ， 
建立 位 置 关 系 连 接 。 

Step3， 从 输入 Tokens 到 记忆 库 中 Tokens， 进 行 相似 性 激活 。 

给 输入 的 每 个 Token 赋予 一 个 统一 的 初始 激活 值 A0。A0 本 身 是 一 个 预 设 的 
数值 。 但 它 可 以 受到 上 一 次 机 器 链 式 联想 激活 过 程 中 ,被 激活 的 奖励 符号 、 惩 罚 
符号 的 激活 值 高 低 进行 调整 。 

被 激活 的 奖励 符 写 、 和 您 罚 符 号 的 激活 值 高 低 ， 就 是 机 器 对 之 前 输入 信息 进行 
的 潜在 奖 罚 值 进行 预测 。 而 初始 激活 值 Ao， 会 影响 链 式 联想 激活 过 程 的 范围 。 
当初 始 激 活 值 A0 很 高 ， 那 么 链 式 联 想 激 活 过 程 的 传播 范围 就 更 大 。 这 是 因为 在 
我 们 的 方案 中 ,激活 值 传播 系数 是 小 于 1 的 。 随 着 链 式 传播 的 级 数 增加 ， 被 传播 
的 激活 值 越 来 越 小 。 当 一 个 Token 获得 的 激活 值 小 于 预 设 的 装 值 后 ， 链 式 传 播 过 
程 就 会 终止 。 所 以 AO 反映 了 机 器 对 输入 信息 的 重视 程度 。 当 AO 很 高 时 ， 机 器 
会 激活 更 多 记忆 中 的 Tokens， 来 寻找 和 输入 Tokens 相关 的 记忆 。 这 和 人 类 类 似 ， 
如 果 前 面 输入 的 Tokens 带 来 了 很 高 的 潜在 奖 罚 ， 那 么 新 的 相关 Tokens 输入 就 可 
能 被 格外 重视 。 比 如 ， 老 板 的 话 ， 会 让 你 联想 的 信息 更 多 。 

相似 性 激活 的 原则 是 : (1) Tokens 之 间 相 似 度 越 高 ， 传 递 系数 越 大 ， 这 是 
Token 之 间 的 相关 性 点 积 。 (2) 记忆 值 越 高 ， 传 递 系 数 越 大 ， 记 忆 值 是 预 训练 
权重 。 需 要 强调 ， 同 一 Token， 可 能 在 记忆 库 中 很 多 位 置 上 不 断 出 现 ! 它们 都 有 
自己 的 不 同 记 忆 值 ! 这 是 因为 不 同 Token 排列 下 ， 同 一 Token 在 其 中 的 权重 并 不 
相同 ! 这 和 大 模型 中 注意 力 机 制 是 类 似 的 。 

Step4， 所 有 被 激活 的 Tokens， 进 行 临 近 性 激活 。 

我 们 认为 , Tokens 之 间 的 临近 关系 , 代表 了 它们 之 间 存 在 某 种 隐 含 的 关联 性 。 
出 现时 间 上 越 临近 , 潜在 关系 越 紧 密 。 这 种 关联 性 可 以 通过 链 式 联想 激活 过 程 + 
记忆 和 遗忘 机 制 统 计 出 来 。 临 近 关 系 ， 实 际 上 反映 了 一 种 Tokens 组 合 关 系 。 如 
果 这 种 组 合 关系 能 重复 出 现 ,那么 它 就 是 一 种 常见 组 合 。 所 以 我 们 通过 链 式 联想 
激活 过 程 中 的 临近 激活 过 程 ， 来 发 现 常 见 组 合 方式 。 

每 个 被 激活 的 Token， 又 会 向 它 临 近 的 Token 传递 激活 值 ， 时 间 位 置 越 近 ， 
传递 系数 越 大 ; 记忆 值 越 高 ， 传 递 系 数 越 大 。 记 忆 库 中 ，Tokens 之 间 如 果 存 在 临 
EKR, 说 明了 它们 曾经 是 一 种 组 合 方式 。 如 果 它 们 的 记忆 值 高 ,说 明了 它们 是 
一 种 常见 的 组 合 方式 。 如 果 只 有 一 个 Token 的 记忆 值 高 ,说明 它 们 不 是 常见 组 合 
方式 。 如 果 Tokens 的 记忆 值 都 不 高 ， 则 它们 传播 的 激活 值 很 低 ，Tokens 的 链 式 
传播 很 快 停止 。 说 明 这 样 的 信息 不 重要 ， 它 们 在 信息 处 理 中 的 权重 很 低 。 

Token 采用 “时 间 位 置 越 近 ， 传 递 系数 越 大 ;记忆 值 越 高 ， 传 递 系 数 越 大 ” 


的 方式 ， 激 活 包 含 它们 的 常见 组 合 ， 本 质 就 是 输入 Token IH] —2H Tokens 组 成 的 
坐标 基底 的 投影 过 程 。 

如 果 N 个 输入 Tokens， 它 们 都 问 记 忆 中 包含 它们 的 x 组合 (Tokens 组 合 ) H 
影 ， 那 么 这 些 X 组 合 就 会 获得 很 高 的 激活 值 。 因 为 每 一 个 Tokens 都 会 同时 按照 
相似 性 和 临近 性 激活 X 组 合 中 多 个 Tokens. 所 以 , X 组 合 通过 激活 值 累计 的 方式 ， 
获得 了 更 高 的 激活 值 。 这 些 更 高 的 激活 值 Tokens， 组 成 的 “模型 ”， 就 是 输入 的 
量 CN 个 Tokens) 激活 的 预期 模型 〈 世 界 模型 ) 。 

本 质 上 ， 这 就 是 一 个 矢量 向 坐标 基底 分 解 的 过 程 ， 也 是 信息 识别 过 程 。 
Step5， 每 一 个 被 激活 的 Tokens， 又 按照 相似 激活 和 临近 激活 原则 ， 在 记忆 库 
中 链 式 传 播 激 活 值 。 

每 一 个 输入 的 Token， 都 在 记忆 库 中 进行 “相似 性 激活 ”““ 临 近 性 激活 “， 激 活 
值 传 递 大 小 和 它们 的 预 训练 权重 (记忆 值 ) 正 相关 。 

记忆 库 中 每 一 个 被 激活 的 Token， 同样 按照 “相似 性 激活 ”"、“ 临 近 性 激活 ”， 激 
活 值 传递 大 小 和 它们 的 预 训练 权重 〈 记 忆 值 ) 正 相 关 。 

这 个 过 程 链 式 进行 ， 直 到 所 有 的 输入 Token 完成 自己 的 “ 链 式 激活 过 程 "。 所 
以 , 除了 和 输入 矢量 相似 的 记忆 中 矢量 被 激活 外 ,机 器 还 会 激活 和 输入 矢量 相似 
的 记忆 中 矢量 的 “前 因 ” 和 “后 果 ”， 也 就 是 在 记忆 库 中 ， 在 时 间 上 的 前 面 信息 
和 后 面 信息 。 并 且 ， 可 能 通过 不 同 的 记忆 片段 ， 激 活 不 同 的 “前 因 ” 和 “后 果 ”。 
这 就 使 得 我 们 的 方案 能 推测 可 能 的 前 一 个 矢量 ， 并 预测 可 能 的 下 一 个 矢量 。 
由 于 我 们 采用 的 策略 是 “整体 低 分 率 Tokens” 优 先 ， 所 以 信息 的 空间 位 置 关 
系 , 实际 上 是 通过 时 间 位 置 关系 来 建立 的 。 当 信息 输入 时 , 机 器 首先 提取 的 是 “ 整 
体 低 分 率 Tokens”， 存 储 到 记忆 库 中 。 随 后 发 起 链 式 联想 激活 过 程 。 完 成 后 ， 通 
过 统计 被 激活 的 奖 罚 符号 的 激活 值 ， 来 做 决策 。 

机 器 的 决策 原则 是 趋 利 避 害 。 做 出 的 决策 有 可 能 是 进一步 识别 信息 ， 或 者 其 
他 决策 。 如 果 决 策 是 进一步 识别 信息 ， 那 么 机 器 会 把 目前 的 高 激活 值 Tokens 组 
合 方 式 (包含 语言 Tokens) 作为 预期 模型 ， 去 主动 确认 那些 还 没有 出 现在 输入 中 
的 高 激活 值 Tokens。 采 用 的 方法 是 模仿 过 去 获得 这 些 Tokens 的 经 验 ， 来 调整 自 
己 的 传感器 系统 。 所 以 这 是 一 种 主动 寻找 信息 的 “模式 识别 ”， 和 人 类 的 识别 过 
程 是 类 似 的 。 

这 些 新 获得 的 Tokens《〈 比 如 局 部 细节 ) ， 就 和 原来 的 “整体 低 分 率 Tokens” 
存在 时 间 上 的 临近 性 关系 , 也 存在 部 分 相似 性 关系 , 所 以 它们 之 间 可 以 通过 彼此 
传递 激活 值 来 建立 连接 关系 。 这 样 ， 新 获得 的 Tokens 就 和 原来 的 整体 低 分 率 
Tokens 建立 了 位 置 关 系 。 这 些 整体 低 分 率 Tokens， 和 那些 经 常 伴随 出 现 的 局 部 
Tokens， 通 过 记忆 和 遗 态 机 制 ， 慢 慢 就 形成 了 “世界 模型 ”。 

需要 指出 , 世界 模型 并 不 是 创建 一 个 独立 的 模型 , 它 所 包含 的 Tokens 可 能 遍 
布 在 整个 记忆 库 中 ， 这 些 Tokens 是 通过 相似 性 、 临 近 性 和 高 记忆 值 带 来 的 紧密 
激活 值 传递 关系 而 临时 创建 的 。 所 以 它 不 是 静态 的 ， 是 分 布 式 存在 的 ， 是 在 输入 
言 息 激励 下 ， 那 些 获 得 高 激活 值 的 Tokens 临时 构成 的 ， 记 忆 库 中 并 没有 单独 的 
模型 存在 。 

Step6， 激 活 值 累计 。 

如 果 某 一 个 记忆 库 中 的 Token， 和 多 个 输入 Tokens 之 间 存 在 激活 值 传播 路 径 

(也 就 是 说 ， 要 么 直接 相关 ， 要 么 间接 相关 ) ， 从 输入 传递 过 来 的 激活 值 是 累计 
Hj. 所 以 和 多 个 输入 Token 之 间 存 在 直接 /间接 相关 的 记忆 库 中 的 Token, 会 从 多 
个 传播 路 径 上 ， 获 得 更 高 的 累积 激活 值 。 


通过 这 种 方式 ， 输 入 Token 中 ， 如 果 彼 此 存在 关联 的 Tokens， 会 彼此 推 高 记 
忆 库 中 的 相关 Tokens 的 权重 。 也 就 是 说 ， 那 些 常见 组 合 ， 它 们 的 激活 值 ， 会 从 
激活 值 海平 面 上 升 起 来 。 而 这 个 激活 值 海 平面 就 是 那些 大 量 Tokens 的 低 激 活 值 。 
那些 从 激活 值 海 平面 上 升 起 来 的 Tokens， 就 构成 了 一 个 或 者 多 个 “世界 模型 ”。 

而 那些 和 输入 最 相关 的 记忆 ， 尽 管 它们 可 能 不 是 常见 的 ， 但 由 于 和 输入 直接 
相关 ， 传 播 路 径 短 ， 所 以 它们 可 能 也 能 获得 高 激活 值 。 

所 以 ， 我 们 的 方案 ， 既 能 通过 常见 Tokens 组 合 来 获得 信息 的 “信息 框架 ”， 
又 能 关注 特定 事实 细节 ， 所 以 我 们 的 方案 ， 是 目 带 “ 事 实数 据 库 ”的 ， 它 能 解决 
目前 GPT 的 “幻觉 ”问题 。 

Step7， 激 活 值 随时 间 消 退 。 

所 有 的 激活 值 ， 都 随时 间 而 不 断 递 减 。 当 后 面 的 Token 输入 后 ， 激 活 了 记忆 
中 相关 Token。 而 前 面 输入 ， 所 激活 了 的 相关 Token 还 没有 完全 消退 ， 激 活 值 会 
被 累计 。 

而 机 器 的 决策 ， 是 基于 所 有 被 激活 Tokens 的 。 所 以 前 、 后 输入 信息 都 会 被 考 
处 到 。 所 以 ， 机 器 的 思维 是 有 一 定时 间 连 贯 性 的 ， 可 以 解决 “省 略 ”、“ 代 指 ”、“ 比 
喻 ”等 问题 。 

所 以 , 我 们 的 机 器 , 利用 了 前 、 后 输入 之 间 的 隐 含 关系 ! 这 就 是 注意 力 机 制 ! 

更 进一步 :机 器 会 根据 上 一 次 决策 所 预测 的 “利弊 "大 小 ,来 调整 给 输入 Tokens 
赋予 的 初始 激活 值 A0。 而 初始 激活 值 Ao， 会 影响 激活 值 传播 的 范围 和 累计 的 大 
小 ! 这 就 是 根据 “ 利 闵 ”来 调整 注意 力 强 度 ! 这 和 人 类 非常 类 似 。 在 这 一 点 上 ， 超 
越 目 前 技术 〈Transformer) 。 事 实 上 ， 这 和 人 类 的 决策 过 程 很 相似 ， 比 如 老板 的 
话 ， 会 能 让 你 产生 更 多 的 联想 ， 激 活 更 多 的 奖励 或 者 惩罚 符号 ， 从 而 更 深入 的 预 
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Step8, 通过 链 式 联想 激活 过 程 + 记忆 和 遗忘 机 制 + 趋 利 避 害 原则 来 更 新 预 训 
练 权重 矩阵 。 

在 我 们 的 方案 中 , 那些 能 够 重复 出 现 的 Tokens 组 合 ， 因 为 重复 性 ,它们 可 能 
获得 更 高 的 记忆 值 。 并 因为 是 能 重复 出 现 的 组 合 , 每 一 次 彼此 都 推 高 对 方 的 激活 
值 ， 所 以 获得 了 远 比 简单 的 重复 性 更 高 的 记忆 值 。 

而 且 因为 它们 能 重复 ， 所 以 它们 的 组 合 ， 每 一 次 都 能 获得 更 高 的 激活 值 ， 所 
以 它们 更 加 容易 被 激活 ， 从 而 更 加 容易 获得 记忆 增 量 。 所 以 这 是 一 个 正 向 循环 过 
程 。 所 以 ， 从 这 里 可 以 看 出 ,我 们 的 机 器 可 以 自我 总 结 经 验 。 但 同时 ， 要 遗忘 已 
有 的 思维 模式 ， 也 会 是 一 个 费时 的 过 程 。 

所 以 , 在 我 们 的 方案 中 , 机 器 的 预 训练 统计 过 程 ,并 不 是 简单 地 统计 重复 性 ， 
然后 采用 记忆 和 遗忘 机 制 来 建立 的 。 而 是 通过 注意 力 机 制 + 记忆 和 遗 态 机 制 + 
趋 利 避 害 原 则 ， 来 共同 完成 的 。 

机 器 的 决策 过 程 ， 是 趋 利 避 害 的 ， 机 器 在 趋 利 避 害 的 决策 中 ， 对 信息 的 识别 
过 程 ， 是 根据 趋 利 避 害 的 方式 ， 对 信息 做 选择 性 识别 的 。 所 以 ,我们 的 机 器 ， 是 
根据 自身 的 需求 ， 来 建立 Tokens 之 间 的 常见 组 合 的 。 所 以 ， 我 们 的 机 器 ， 对 外 
界 、 对 自身 的 信息 识别 ， 都 是 选择 性 识别 的 。 

记忆 和 遗忘 机 制 : 记忆 库 中 所 有 Tokens， 如 果 被 激活 一 次 ， 就 按照 它们 的 激 
活 值 大 小 ， 正 相关 更 新 它们 的 记忆 值 。 和 它们 的 记忆 值 ， 就 是 预 训练 权重 矩阵 ! 由 
于 Token 排列 无 法 穷 举 ， 所 以 这 是 一 种 非 完 全 统计 过 程 ， 和 大 模型 的 预 训练 过 程 
是 类 似 的 。 


而 链 式 联想 激活 过 程 ， 就 是 在 输入 Token 组 合 激励 下 ， 注 意 力 机 制 的 推理 过 
程 〈 从 局 部 统计 权重 到 输入 的 本 地 化 权重 计算 过 程 ) ， 这 和 Transformer 中 的 注 
意 力 机 制 是 相似 的 。 

这 个 过 程 ， 本 质 上 就 是 输入 矢量 向 注意 力 机 制 建立 的 坐标 基底 艇 投影 的 过 程 。 
输入 矢量 , 可 以 看 做 是 输入 维度 下 的 脉冲 函数 构成 的 原始 基底 秘 。 而 注意 力 机 制 
建立 的 坐标 基底 簇 ， 则 是 以 常见 Tokens 组 合 为 基础 建立 的 。 

注意 力 机 制 的 推理 权重 矩阵 就 是 输入 矢量 到 基底 簇 投影 的 系数 矩阵 。 而 在 我 
们 的 方案 中 ， 链 式 联想 激活 过 程 ， 和 Transformer 中 的 多 层 注意 力 机 制 类 似 ， 也 
是 输入 矢量 癌 注 意 力 机 制 建立 的 坐标 基底 簇 投 影 的 过 程 : 先 单独 的 Tokens 投影 ， 
然后 组 合 投影 。 最 后 链 式 激活 完成 后 ， 高 激活 值 Tokens 组 成 的 一 个 或 者 多 个 高 
权重 分 量 ， 就 是 信息 的 “框架 ”。 每 个 框架 包含 很 多 Tokens， 难 以 具体 描述 。 但 
通常 其 中 的 语言 符号 ， 由 于 代表 性 高 ， 重 复 性 高 ， 所 以 通过 获得 的 激活 值 可 能 
是 最 高 的 ， 它 们 就 可 能 成 为 这 个 “框架 ”的 代表 性 Tokens。 所 以 ， 我 们 方案 中 ， 
激活 值 就 是 推理 权重 矩阵 。 

事实 上 ， 无 论 是 大 模型 ， 还 是 我 们 的 网 络 ， 都 是 一 种 类 神经 网 络 。 注 意 力 机 
制 ， 本 质 是 贝 叶 斯 推理 。 通 俗 的 说 ， 注 意 力 机 制 ， 就 是 已 知 一 些 Tokens 的 条 件 
概率 ， 和 部 分 Tokens 的 联合 概率 ， 求 特定 Tokens 组 合 的 联合 条 件 概率 。 这 就 是 
贝 叶 斯 推理 和 神经 网 络 结合 起 来 的 应 用 。 在 大 模型 中 ， 已 知 一 些 Tokens 的 概率 ， 
和 部 分 Tokens 的 联合 概率 是 由 权重 矩阵 确定 的 ， 并 通过 多 次 相关 运算 来 进行 
Tokens 组 合 下 的 概率 预测 。 在 我 们 的 方案 中 ， 已 知 一 些 Tokens 的 概率 和 一 些 
Tokens 的 联合 概率 ， 是 显 式 地 被 表达 在 记忆 库 中 ， 它 们 就 是 Tokens 的 记忆 值 ， 
Tokens 的 相对 位 置 和 Tokens 之 间 的 相似 性 。 

可 以 看 到 ， 我 们 实现 注意 力 机 制 的 方式 是 小 样本 、 累 计 学 习 的 。 而 且 权 重托 
阵 是 实时 更 新 的 ， 所 以 我 们 的 方案 ， 知 识 是 实时 更 新 的 。 而 其 我 们 并 不 区 分 预 训 
练 和 推理 过 程 ， 所 以 我 们 的 机 器 是 终身 学 习 的 。 

另外 ， 可 以 看 到 ， 我 们 的 方案 ， 不 需要 BP 算法 ， 不 需要 预 训练 ， 它 的 运算 
量 基 本 和 大 模型 的 推理 过 程 接近 。 所 以 我 们 方案 需要 的 计算 量 远 小 于 Transformer， 
并 且 同 样 可 以 并 行 计 算 。 所 以 , 我 们 的 方案 , 可 以 实现 预 训练 过 程 的 计算 本 地 化 。 
每 一 个 机 器 ， 都 是 一 个 自我 训练 ， 不 断 迭 代 ， 不 断 进化 的 智能 体 。 

另外 ， 可 以 看 到 ， 我 们 方案 中 ，Tokens 提取 和 目前 大 模型 可 以 采用 类 似 的 技 
术 ， 运 算 量 是 相当 的 。 而 链 式 联想 激活 过 程 ， 是 高 度 模式 化 的 ， 它 可 以 采用 新 型 
存储 器 件 在 硬件 层面 直接 实现 。 这 样 ， 有 助 于 我 们 方案 中 计算 的 本 地 化 ， 这 将 有 
助 于 拓展 落地 场景 ， 并 降低 成 本 。 

Step 9， 预 置 最 小 先天 需求 。 

我 们 既 实 现 了 注意 力 机 制 ， 找 到 了 常见 Tokens 组 合 ， 又 没有 打 乱 原 有 的 
Tokens 的 时 间 、 空 间 组 织 形式 ! 所 以 ,我 们 方案 形成 的 知识 网 络 ， 是 人 类 可 以 理 
解 的 。 所 以 ， 我 们 可 以 模仿 最 终 记忆 库 中 Tokens 的 组 织 形式 ， 给 机 器 建立 最 初 
的 最 小 先天 记忆 ! 这 就 等 同 于 给 机 器 预 置 一 段 类 似 于 人 类 的 最 小 先天 知识 〈 婴 儿 
天 生 就 有 的 知识 ) 。 

在 先天 记忆 中 , 需要 包含 机 器 的 最 小 “需求 系统 "、“ 奖 罚 系 统 " 和 “情绪 系统 ”。 
采用 的 方法 是 : 使 用 特殊 Tokens 来 代表 每 一 种 “需求 “"、“ 奖 罚 " 和 “情绪 ”"。 然 后 模 
仿 记 忆 库 预 训练 后 的 形式 (其实 就 是 合适 的 Tokens 排列 方式 + 合适 的 记忆 值 )， 
植 入 最 小 先天 知识 。 

在 日 常生 活 中 ， 让 这 些 代 表 “ 需 求 “”“ 奖 罚 " 和 “情绪 "的 Tokens 和 其 他 引发 它 


们 的 外 界 Tokens 一 起 训练 ， 一 起 链 式 联想 激活 ， 一 起 记忆 和 遗志 。 也 就 是 说 ， 
通过 注意 力 机 制 ， 让 这 些 特殊 Tokens， 和 其 他 Tokens 一 样 ， 建 立 常见 Tokens 组 
合 。 所 以 ， 我 们 必须 要 预 置 机 器 的 最 小 “需求 系统 "、“ 奖 罚 系 统 " 和 “情绪 系统 ”， 
这 样 才 可 能 让 代表 外 界 ( 包 括 机 器 自身 状态 参数 ) 的 Tokens, 引发 这 些 特殊 Tokens, 
从 而 建立 起 信息 流 。 并 通过 链 式 联想 激活 过 程 + 趋 利 避 害 决策 + 记忆 和 遗 在 机 
制 ， 来 逐步 获得 最 常见 的 、 和 机 器 最 关心 的 常见 Tokens 组 合 。 

这 样 ， 我 们 就 在 “客观 世界 的 常见 Tokens 组 合 ” 和 “需求 ”之 间 建 立 了 连接 
关系 。“ 客 观 世 界 的 常见 Tokens 组 合 ” 就 是 客观 世界 的 “客观 常识 ”， 而 “ 客 
观 世 界 的 常见 Tokens 组 合 ” 和 “需求 ”构成 的 “常见 Tokens 组 合 ”， 就 是 “ 主 
观 常识 ”。“ 客 观 常识 ”和 “主观 常识 ”构成 了 “常识 ”。 

常识 就 是 “世界 模型 ”， 它 包含 了 人 类 对 外 部 世界 认 知 的 “世界 模型 ”， 也 
包含 人 类 建立 的 “世界 模型 ”和 “我 ”的 关系 。 需 要 特别 指出 ，Tokens 不 仅仅 是 
静态 特征 ， 也 包含 那些 简单 的 动态 特征 (比如 旋转 、 摇 摆 等 ) ， 所 以 世界 模式 不 
是 静态 的 ， 也 不 是 固定 的 ， 是 在 输入 Tokens 激励 下 临近 创建 的 ! 

而 且 每 一 个 人 所 建立 的 世界 模型 都 是 不 一 样 的 ， 这 和 和 它 的 经 历 直接 相关 。 在 
我 们 的 方案 中 ， 机 器 所 建立 的 “世界 模型 ”直接 和 和 它 的 训练 数据 相关 ， 也 会 和 它 
的 生活 经 历 相 关 ! 

有 了 世界 模型 ， 输 入 Tokens 就 能 通过 链 式 联想 激活 过 程 ， 去 激活 那些 奖 加 
Tokens、 情 绪 Tokens、 需 求 Tokens， 而 从 输入 Tokens 到 这 些 特征 Tokens 的 激活 
值 传 递 路 径 ， 就 是 和 神经 网 络 兼 容 的 逻辑 推理 过 程 ! 它 是 显 式 的 ， 是 可 以 被 理解 
的 ， 可 以 被 模仿 的 ， 所 以 机 器 的 决策 是 可 以 看 到 的 。 
事实 上 ， 在 实际 创建 “通用 人 工 智 能 ”过 程 中 ，Step 9 本 质 上 是 第 一 步 。 但 
我 们 可 以 通过 前 面 的 步骤 来 训练 实验 数据 , 从 而 获得 并 理解 机 器 创建 的 知识 的 组 
织 形式 ， 然 后 模仿 这 些 组 织 形式 ， 来 实现 Step 9。 

O 预 置 和 机 器 生命 活动 相关 的 ， 基 础 需求 利弊 系统 。 

比如 给 电量 数据 一 个 合理 区 间 ， 在 “先天 记忆 ”中 预 置 一 个 代表 “ 饿 ”的 符 
号 ， 在 “ 饿 ” 符 旁 边 放 一 个 “惩罚 ”符号 和 一 个 代表 “ 饿 ”的 情绪 符号 。 并 赋予 
它们 合适 的 记忆 值 。 

当 电 量 不 够 时 ， 生 命 状 态 监 控 程 序 ， 会 直接 给 “先天 记忆 ”中 “ 饿 ”的 符号 
赋予 初始 激活 值 。 它 的 激活 值 就 会 在 整个 记忆 库 中 链 式 传播 。 它 旁边 的 “ 饿 ”的 
情绪 符号 被 激活 ， 它 旁边 的 “惩罚 ”符号 也 会 比 激活 。 所 以 机 器 束 有 了 “ 饿 ”的 
情绪 和 出 现 “ 惩 罚 值 ”。 为 了 避免 “惩罚 值 ”， 机 器 会 利用 自己 的 经 验 ， 主 动 去 
寻找 插头 充电 ! 

2 预 置 机 器 价值 观 的 “高 阶 需求 ”利弊 ， 需 要 预 置 最 简单 的 沟通 手段 ， 
然后 培养 价值 观 。 

价值 观 需 要 从 小 培养 ! 所 以 我 们 需要 从 小 通过 教育 ， 来 培养 机 器 人 的 “价值 
观 ”。 既 然 要 教育 ， 就 需要 通过 “奖励 ”和 “惩罚 ”来 实现 。 所 以 机 器 一 开始 ， 
就 需要 能 够 识别 “奖励 ”和 “惩罚 ”。 这 样 我 们 才能 通过 “奖励 ”和 “惩罚 ”， 
来 发 起 第 一 步 的 学 习 ! 

所 以 ,我们 需要 模仿 后 天 记忆 网 络 组 织 形式 , 让 机 器 拥有 能 够 识别 最 简单 “ 奖 
励 ” 和 “惩罚 ”的 先天 知识 ! 

比如 : 预 置 最 基础 的 点 头 特征 〈 假 设 X 个 Tokens) / 摇头 特征 〈 假 设 Y 个 
特征 ) ， 不 需要 精确 ! 

在 点 头 Tokens 劳 边 ， 放 一 个 “被 尊重 ”符号 ; 在 被 “被 尊重 ”符号 旁边 ， 放 


一 个 “奖励 ”符号 ; 给 这 些 符 号 ， 赋 了 予 较 高 的 记忆 值 ， 让 它们 之 间 的 关系 ， 成 为 
长 期 记忆 。 当 信息 输入 中 ， 出 现 部 分 点 头 Tokens 时 ， 通 过 链 式 联想 激活 过 程 ， 
机 器 就 获得 了 “奖励 值 ”。 为 了 追求 “奖励 值 ”， 机 器 以 后 可 能 会 规划 出 各 种 决 
策 ， 目 的 就 是 获得 “人 类 的 点 头 ”! 

类 似 于 一 个 孩子 , 从 最 简单 的 沟通 方式 开始 , 逐步 获得 复杂 学 习 能 力 , 他 (她 ) 
逐步 建立 的 “奖励 函数 ” 远 辑 链 是 :“ 奶 ”一 “奶嘴 ”一 “奶瓶 ”一 “奶粉 炙 子 ”.. 
— 2. “学习 成 绩 ” 一 “房子 车 子 ”.… 一 “社会 地 位 ”.... 一 “人 生理 想 ”。 

所 以 ， 经 过 训练 ， 机 器 的 记忆 库 中 ， 存 在 大 量 的 奖 避 相关 的 Tokens 符号 ， 和 
与 这 些 奖 昼 Tokens 关系 密切 的 Tokens 组 合 ， 它 们 之 间 存 在 因果 关系 。 这 些 和 奖 
罚 Tokens 关系 密切 的 Tokens HS, 它们 代表 的 事物 、 行 为 和 结果 ， 就 是 价值 观 。 
所 以 ， 机 器 的 任何 价值 观 ， 都 可 以 通过 预 置 先天 的 沟通 手段 ， 然 后 一 步 步 进行 培 
养 而 建立 起 来 。 事 实 上 ， 人 类 也 是 这 样 的 ， 没 有 人 先天 就 是 “圣人 ”。 


因为 我 们 没有 采用 深度 学 习 ! 只 是 让 Tokens 
自然 的 形成 Tokens 和 矩阵 ! 所 以 ， 我 们 可 以 模 
仿 Tokens 的 时 空 排列 ， 加 上 记忆 值 ， 来 预 置 
少量 知识 ! 


人 类 反馈 高 阶 需求 的 满足 与 否 ， 来 自 后 天 人 类 
的 反馈 。 比 如 人 类 表扬 和 批评 。 
X 


: Xs 模仿 记忆 库 组 织 形式 ， 预 置 先天 记忆 ， 包 含 
ANW |o | 最 小 需求 和 最 简单 沟通 手段 


1 建立 “先天 最 小 需求 ”的 示意 图 。 


Step 10， 形 成 全 连接 知识 网 络 。 

我 们 的 方案 , 最 后 形成 这 样 一 个 网 络 : 每 一 个 Token， 都 由 4 个 字段 构成 : € 
们 分 别 是 时 间 标 记 、Tokens 本 身 ， 记 忆 值 和 激活 值 。 

KÆ Tokens 按照 时 间 间 隔 存 储 起 来 ， 通过 优化 (采用 的 方式 是 : 链 式 联想 激 
活 过 程 + 记忆 和 遗忘 机 制 来 优胜 劣 汰 ) ， 就 形成 了 知识 网 络 ， 其 中 的 记忆 值 ， 就 
代表 了 预 训练 权重 ， 其 中 的 激活 值 ， 就 代表 了 注意 力 机 制 下 的 推理 权重 。 

我 们 的 网 络 ， 既 有 客观 Tokens， 又 有 主观 Tokens， 它 们 通过 注意 力 机 制 形成 
的 连接 关系 就 是 知识 ， 其 中 常见 知识 就 是 “常识 ”。 

这 就 是 我 们 的 机 器 ， 能 预 判 利弊 ， 能 自主 决策 的 原因 ! 因为 它 有 “需求 ”， 
还 有 和 “需求 ”相关 的 “逻辑 链 ” CTokens 构成 的 激活 值 传 递 链 路 ) 。 在 需求 的 
驱使 下 ， 它 会 主动 去 学 习 ， 自 我 迭代 ! 比如 自己 去 充电 ， 自 己 去 找 图 书馆 看 书 ! 

在 我 们 的 方案 中 ， 知 识 是 围绕 “需求 ”展开 的 ， 决 策 也 是 围绕 “需求 ”展开 
的 ， 这 就 是 我 们 的 机 器 能 实现 “通用 ”的 核心 原因 ! 它 面 对 的 只 有 一 个 任务 : 
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“需求 ”, 而 不 是 形形色色 的 “外 界 任务 ”。 所 以 , 我 们 的 方案 是 “主动 型 智慧 ”， 
而 目前 所 有 其 他 方案 就 是 “被 动 型 ”智慧 。 

可 以 看 到 ， 我 们 的 方案 是 小 样本 学 习 、 知 识 实 时 更 新 ， 训 练 和 使 用 过 程 是 一 
体 的 ， 所 以 机 器 是 终身 学 习 ， 自 我 迭代 。 

由 于 机 器 的 知识 是 以 记忆 库 的 形式 存在 的 ， 而 记忆 库 又 是 按照 时 间 次 序 存 储 
起 来 的 ， 只 不 过 在 原始 记忆 库 的 基础 上 上， 逐步 优化 了 记忆 值 。 所 以 不 同 的 记忆 库 
可 以 直接 拼接 起 来 ， 形 成 大 的 记忆 库 。 所 以 ， 厨师 的 记忆 库 和 医生 的 记忆 库 ， 融 
合 后 , 机 器 人 就 能 同时 拥有 厨师 和 医生 的 技能 , 而 不 需要 把 大 量 的 厨师 和 医生 的 
数据 放 在 一 起 重新 训练 。 而 目前 的 Al 技术 路 线 ， 则 无 法 实现 这 一 点 。 在 大 模型 
中 ,必须 要 同时 使 用 大 量 的 医生 和 厨师 数据 进行 训练 , 机 器 才 可 能 同时 掌握 这 两 
种 技能 。 显 然 ， 按 照 这 样 的 训练 方式 ,希望 机 器 能 拥有 “各 种 各 样 ” 的 能 力 是 一 
TE, 

4.2 记忆 值 和 激活 值 变 化 过 程 的 一 个 示例 。 
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图 2， 联 想 激活 过 程 中 ， 记 忆 值 和 激活 值 的 变化 过 程 简单 示例 

2 为 联想 激活 过 程 中 , 记忆 值 和 激活 值 的 变化 过 程 的 简单 示例 。 为 了 简化 ， 
假设 这 时 机 器 的 记忆 库 是 空 的 ， 机 器 是 “机 生 ” 第 一 次 接收 输入 信息 《而 且 我 们 
也 没有 给 机 器 预 置 先 天 记忆 ) 。 假 设 , 在 to F c7 时刻 , 机 器 的 输入 Tokens 是 “我 
们 希望 世界 和 平 ”。 在 实际 流程 中 ,机 器 应 该 根据 目前 被 激活 的 奖 罚 符 号 的 激活 
值 大 小 《价值 预 估 ) ， 来 调整 给 所 有 输入 Tokens 的 初始 激活 值 。 但 在 这 里 ， 由 
于 没有 价值 体系 来 调整 , 我们 假设 默认 赋予 给 输入 Tokens 的 初始 激活 值 为 90( 假 
设 激活 值 区 间 是 0*255)， 所 以 链 式 联想 激活 过 程 后 , 假设 按照 记忆 曲线 , Tokens 
的 激活 值 是 90， 而 目前 记忆 值 为 0 的 情况 下 ， 机 器 获得 的 记忆 值 增 量 为 126。 

记忆 值 更 新 增 量 6m = f(m0, A0), 其 中 mo 代表 目前 记忆 值 ， 而 Ao 代表 目前 
激活 值 。 记 忆 值 更 新 增 量 和 激活 值 成 正 相 关 。 

所 有 的 记忆 值 和 激活 值 都 随时 间 而 递减 。 这 里 采用 了 夸张 的 递减 梯度 。 

在 t9 到 t19 的 时 刻 ， 机 器 接收 到 第 二 次 输入 Tokens: “和 平 让 我 们 的 世界 美 
好 ”。 显然 , 按照 “相似 性 激活 ” 过程, 首先 Token“ 和 ”会 激活 记忆 库 中 的 Token 
“和 ”， 给 它 传 递 激 活 值 ， 并 且 由 于 记忆 库 中 “和 ”的 记忆 值 较 高 ， 所 以 记忆 库 
中 的 “和 ”从 输入 Tokens 的 初始 激活 值 ， 获 得 了 传递 过 去 的 激活 值 ， 而 且 这 个 
传递 系数 较 大 。 

相似 性 激活 过 程 传递 系数 T= f(S ,m0), 其 中 代表 相似 性 CTokens 矢量 的 点 
FR) ，m0 代表 被 传递 的 Tokens 的 记忆 值 。 激 活 值 传递 系数 和 相似 度 、 记 忆 值 正 
相关 。 

同时 ， 在 记忆 库 中 的 “和 ”Token， 还 会 因为 激活 值 超过 预 设 病 值 ， 而 发 起 
链 式 传播 过 程 。 在 这 个 链 式 传播 过 程 中 ， 它 首先 会 通过 “临近 激活 ”方式 ， 向 和 
它 临近 的 “ 平 ”、“ 界 ”发 起 临近 关系 激活 。 


临近 激活 过 程 传递 系数 T= f(D ,m0)， 其 中 D 代表 两 个 Tokens 的 时 间距 离 ， 
mO 代表 被 传递 的 Tokens 的 记忆 值 。 临 近 激 活 值 传递 系数 和 时 间距 离 成 反 相 关 ， 
和 被 传递 的 Tokens 的 记忆 值 成 正 相 关 。 

而 “ 平 ”、“ 界 ”获得 了 激活 值 后 ， 如 果 激 活 值 超过 预 设 阔 值 ， 也 会 发 起 链 
式 传播 过 程 。 在 记忆 库 中 寻找 和 自己 相似 的 Tokens 进行 激活 值 传播 ， 也 会 对 和 
自己 临近 的 Tokens 进行 激活 值 传 播 ， 两 个 过 程 的 传递 系数 都 和 记忆 值 成 正 相 关 。 

通过 链 式 联想 激活 过 程 ， 输 入 Tokens， 有 可 能 激活 整个 记忆 库 和 它们 相关 的 
Tokens 组 合 。 激活 范围 取决 于 它们 获得 的 初始 激活 值 ， 初始 激活 值 受 价值 预测 的 
调整 。 

在 第 二 次 输入 的 所 有 Tokens 完成 链 式 联想 激活 过 程 后 , 我 们 可 以 看 到 在 记忆 
库 中 存储 的 Tokens 中 ， 其 中 “和 平 ”Tokens 组 合 的 记忆 值 最 高 ， 并 且 临 近 ， 所 
以 它们 在 以 后 的 链 式 联想 激活 过 程 中 , 每 一 个 Token 都 会 因为 高 记忆 值 而 获得 更 
高 的 激活 值 。 同 时 ，“ 和 ”、“ 平 ”除了 自己 有 机 会 获得 更 高 的 激活 值 外 ， 它 们 
还 会 因为 位 置 临近 而 彼此 传递 激活 值 〈 临 近 激活 ) ， 而 且 这 个 过 程 中 ， 同 样 因为 
它们 的 记忆 值 高 而 获得 高 的 传递 系数 ， 通 过 激活 值 累 积 , 它们 就 是 一 组 容易 获得 
高 激活 值 权 重 的 Tokens 组 合 。 

其 次 , 我 们 可 以 看 到 在 记忆 库 中 存储 的 Tokens 中 ， 其 中 “世界 ”Tokens 组 合 
的 和 “和 平 ” Tokens 组 合 类 似 ， 获 得 第 二 高 的 记忆 值 ， 所 以 它们 也 是 容易 获得 高 
激活 值 权重 的 Tokens 组 合 。 

所 以 ,我们 只 需要 两 句 话 ， 就 能 建立 Tokens 的 相对 “权重 ”。 按 照 上 述 过 程 
不 断 累积 学 习 ， 机 器 就 能 建立 起 正确 的 常见 Tokens 组 合 ， 以 及 它们 的 记忆 值 。 
而 这 种 记忆 值 就 对 应 了 这 种 组 合 的 “常见 程度 ”， 也 就 是 说 ， 记 忆 值 其 实 就 是 通 
过 训练 数据 获得 的 这 种 组 合 出 现 概 率 的 局 部 统计 值 。 而 激活 值 ， 则 是 依据 这 种 局 
部 统计 值 ， 来 获得 的 输入 Tokens 组 合 到 “常见 Tokens 组 合 ” CERI) 的 点 积 
过 程 (投影 ，。 

所 以 ， 我 们 采用 的 是 一 种 类 人 的 学 习 方法 ， 它 非常 高 效 ， 并 且 可 以 实现 小 样 
本 、 累 积 学 习 、 实 时 更 新 。 它 不 修改 “ 旧 知 识 ” 的 参数 ， 所 以 不 会 有 “灾难 性 遗 
忘 ” 的 问题 。 它 不 需要 BP 梯度 优化 过 程 ， 所 以 它 的 计算 量 基 本 和 大 模型 的 推理 
过 程 一 致 。 


5， 我 们 实现 了 Yann Lecun 教授 提出 的 三 个 条 件 。 


深度 学 习 三 巨头 ,图 灵 奖 获得 者 , Yann LeCun 教授 认为 AGI 正确 的 方向 是 ″ 1 
界 模型 ”， 道 路 是 实现 “类 人 A"， 他 们 提出 3 个 条 件 : 

CD : 需要 世界 模型 。 包 括 需 要 要 有 对 快乐 、 饥 饿 等 基本 需求 进行 建 模 的 
需求 模块 ， 以 及 预测 价值 的 价值 模块 。 

(20 : 需要 一 种 和 神经 网 络 兼容 的 逻辑 推理 能 力 。 (目前 推理 能 力 都 是 靠 
外 挂 的 符号 主义 推理 ) 。 

(3) : 需要 一 种 的 “通用 决策 能 力 ”， 能 自 顶 而 下 ,分 解决 策 。 而 不 能 对 每 一 
种 任务 都 去 强化 训练 100 万 次 ! 

他 们 虽然 提出 了 这 些 思想 ， 但 没有 完整 的 技术 方案 。 而 我 们 的 方案 ， 可 以 实 
现 上 述 3 个 条 件 。 
5.1 我 们 建立 了 世界 模型 。 

输入 Tokens 激活 了 记忆 中 Tokens 组 合 ， 高 激活 值 Tokens 组 合 就 是 被 激活 的 


“世界 模型 ”( 一 部 分 Tokens 可 能 已 经 出 现在 输入 中 ， 其 他 Tokens 可 能 还 没有 
现在 输入 中 ) 。 然 后 根据 预测 的 “ 趋 利 避 害 ” 的 决策 流程 ， 决 定 要 不 要 进一步 确 贡 
其 他 “高 激活 值 Tokens” 是 否 存 在 ， 这 就 是 “模式 识别 ”"”。 世 界 模型 就 是 “常识 "， 它 
就 是 “需求 "、“ 奖 罚 " 和 “情绪 ”等 主观 Tokens 和 客观 Tokens 构成 的 Tokens 组 合 方 
式 。 人 类 就 是 用 “常识 "来 对 事物 进行 “模式 识别 ”的 。 

机 器 在 每 一 次 新 的 信息 输入 后 ， 都 需要 进行 链 式 联想 激活 ， 然 后 按照 “同时 
性 存储 ”方式 存储 Tokens。 同 时 性 存储 是 指 采用 某 种 机 制 ， 来 反映 Tokens 之 间 
的 时 间 间 隔 关 系 。 比 如 可 以 按照 时 间 越 临近 的 Tokens， 存 储 位 置 越 临 近 , 或 者 按 
照 每 个 Tokens 所 带 的 时 间 信 息 来 确定 时 间 间 隔 。 

每 一 次 获得 新 Tokens 后 ， 机 器 都 需要 更 加 更 新 后 的 激活 值 ， 寻 找 实现 奖励 、 
避免 惩罚 的 路 径 。 这 些 路 径 的 集合 就 是 整体 响应 路 径 。 整 体 响应 路 径 可 能 是 一 种 
网 络 状 结构 ， 很 多 局 部 路 径 既 可 能 通 回 奖 励 符号 ， 也 可 能 通 癌 惩 避 符号 。 

由 于 有 了 通 向 奖励 符号 (或 者 惩罚 符号 ) 的 激活 值 传递 路 径 ， 也 就 是 说 ， 我 
们 实现 了 奖 罚 函数 的 前 置 化 和 步骤 化 .所 以 , 我 们 就 解决 了 目前 强化 学 习 过 程 中 ， 
奖励 函数 稀疏 和 汪 后 的 问题 。 机 器 通过 类 似 于 AlphaGo 的 最 优 响应 路 径 搜索 过 程 ， 
就 可 以 找到 初始 的 最 优 响应 路 径 。 

如 果 整 体 的 奖 罚 值 累 计 没有 进入 可 以 接受 的 预 设 值 (或 者 没有 收敛 ) ， 机 器 
无 法 决定 是 否 选 用 或 者 排除 某 些 特定 的 路 径 ， 从 而 达到 利益 最 大 化 。 则 机 器 需要 
进一步 识别 输入 信息 , 增加 更 多 的 Tokens, 来 对 某 些 特定 的 奖 罚 激活 值 传递 路 径 
进行 细 分 ， 从 而 进一步 帮助 机 器 选用 或 者 排除 某 些 特定 的 路 径 。 这 一 步 就 是 机 器 
自发 创建 的 、 主 动 寻找 信息 来 帮助 决策 的 过 程 。 这 个 过 程 和 迭代 进行 ， 直 到 奖 罚 值 
统计 达到 接受 的 预 设 值 或 者 收敛 为 止 。 

在 进一步 识别 输入 信息 时 ， 高 激活 值 Tokens， 要 么 是 因为 它们 的 记忆 值 高 ， 
比如 是 一 类 事物 的 代表 Tokens， 要 么 是 和 本 次 输入 Tokens 关系 紧密 的 Tokens, 
比如 相似 ， 或 者 经 常 临近 出 现 。 所 以 记忆 中 被 激活 的 高 激活 值 Tokens 组 合 ， 就 
是 和 本 次 输入 信息 相关 的 代表 性 Tokens 组 合 ， 这 些 代 表 性 Tokens 组 合 ， 就 是 机 
器 临时 创建 的 “世界 模型 ”， 我 们 称 之 为 “预期 模型 ”。 它 既 来 自 于 过 去 经 验 的 
总 结 〔( 优 胜 劣 汰 后 的 Tokens 记忆 值 ) ， 也 和 目前 具体 输入 直接 相关 。 它 是 通过 
高 激活 值 临时 创建 的 ， 是 机 器 对 目前 输入 Tokens 组 合 的 “预期 模型 ”。 

机 器 参考 “预期 模型 ”中 己 经 在 输入 中 出 现 的 Tokens 和 没有 在 输入 中 出 现 的 
Tokens 之 间 的 空间 或 者 时 间 关 系 ， 以 目前 已 经 出 现 Tokens 的 时 间 和 空间 位 置 为 
基准 ， 预 测 那些 还 没有 出 现 的 Tokens 可 能 出 现 的 时 间或 者 空间 位 置 ;这 些 在 预期 
模型 中 还 没有 出 现 的 高 激活 值 Tokens， 就 是 预期 Tokens; 机 器 按照 预期 Tokens 
在 预期 模型 中 的 时 间 、 空 间 和 大 小 来 分 配 机 器 的 传感器 搜索 的 时 间 和 空间 位 置 ， 
并 根据 预期 Tokens 的 属性 (比如 语音 、 图 像 或 者 触觉 来 确定 采用 的 传感器 类 
型 ， 并 根据 预期 Tokens 的 属性 (比如 大 小 ) 来 确定 需要 使 用 的 分 辩 紊 。 这 就 是 
机 器 的 “ 按 需 识别 ”过 程 。 这 个 过 程 可 以 迭代 进行 。 

选择 性 注意 力 用 于 从 输入 信息 中 提取 Tokens 的 一 种 手段 , 机 器 按照 选择 性 注 
意 力 识别 给 出 的 识别 区 间 和 分 辨 率 ， 从 输入 信息 中 提取 Tokens。 这样 才能 解决 图 
像 信 息 的 无 线 粒 度 化 问题 〈 机 器 按 需 提取 图 像 中 的 信息 ) 。 机 器 在 中 提取 特定 区 
间 数 据 时 , 按照 整体 特征 优先 的 方式 , 优先 提取 选 定 区 间 内 整体 拓扑 、 外 形 轮 廊 、 
主要 线条 和 主要 纹理 等 Tokens。 然 后 ， 机 器 通过 链 式 联想 激活 过 程 ， 在 记忆 网 络 
中 获得 相关 的 记忆 ， 并 把 这 些 记 忆 按 照 权 重 高 低 组 合成 不 同 权重 的 预期 模型 。 

机 器 根据 被 激活 的 奖 罚 Tokens CAT) Tokens 的 激活 值 大 小 , 就 是 预期 的 奖 罚 
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值 大 小 ) ， 使 用 决策 过 程 ， 来 决定 是 否 进一步 识别 输入 信息 ， 还 是 对 输入 信息 做 
出 响应 。 

如 果 机 器 决定 进一步 识别 输入 信息 ， 机 器 通过 模仿 过 去 获得 “预期 Tokens” 
的 相关 经 验 ， 来 进一步 从 输入 信息 中 提取 “预期 Tokens”。 因 此 ， 机 器 是 通过 注 
意 力 机 制 ， 不 断 迭 代 提 取 输 入 信息 的 Tokens， 而 每 一 次 提取 过 程 ， 可 能 使 用 不 同 
的 传感器 ， 针 对 不 同 的 识别 区 间 ， 采 用 不 同 的 分 辨 率 。 所 以 同一 输入 事物 ， 机 器 
可 能 提取 到 不 同类 型 、 不 同 区 间 和 不 同 分 辩 率 的 Tokens， 并 使 用 这 些 Tokens 组 
合 来 构成 同一 事物 的 “分 层 表征 ”。“ 分 层 表 征 ” 是 指 按照 区 间 内 低 分 辨 率 的 整 
体 特征 优先 的 方式 ， 来 逐次 提取 信息 的 Tokens。 

采用 高 激活 值 Tokens 来 构成 预期 模型 ; 它 的 理论 基础 就 是 这 些 高 激活 值 
Tokens 来 自 于 两 个 部 分 : 一 是 同类 事物 的 共有 特征 ; 因为 共有 特征 广泛 存在 于 同 
类 事物 中 ， 所 以 它们 的 重复 性 很 高 ， 所 以 它们 通常 是 高 记忆 值 Tokens。 所 以 在 我 
们 的 方案 中 ， 机 器 对 信息 的 识别 方法 是 ， 首 先 通 过 共有 特征 来 识别 大 的 类 别 〈 获 
得 抽象 概念 ) ， 然 后 才 是 通过 迭代 方法 ,逐步 加 入 更 多 的 Tokens 来 限定 范围 (从 
抽象 概念 走向 具体 概念 ) 。 

高 激活 值 的 另外 一 个 来 源 是 : 在 输入 的 Tokens 中 有 和 特定 记忆 中 相似 的 
Tokens。 这 些 特定 的 Tokens， 会 因为 相似 性 激活 而 被 直接 激活 记忆 中 的 Tokens， 
和 它 存在 临近 关系 的 其 他 高 记忆 值 Tokens 也 容易 获得 更 高 的 激活 值 。 由 于 激活 
路 径 短 ， 所 以 在 关系 网 络 中 ， 特 殊 Tokens 会 激活 特定 “预期 模型 ”， 这 是 一 种 
通过 特殊 Tokens 快速 定位 预期 模型 的 途径 。 

所 以 对 输入 信息 的 识别 过 程 ， 是 通过 共有 特征 识别 其 属于 哪个 大 的 类 别 ， 然 
后 通过 独 有 特征 去 确定 其 属于 哪个 具体 的 子 类 。 机 器 通过 选择 性 注意 力 ， 不 断 迭 
代 增 加 用 于 识别 的 Tokens。 在 这 个 过 程 中 ， 先 前 被 激活 的 Tokens， 其 激活 值 会 随 
时 间 而 消退 。 如 果 它 们 被 新 输入 的 Tokens 再 次 激活 ， 它 们 的 激活 值 会 持续 保持 。 
如 果 它 们 和 新 输入 的 Tokens 无 关 ， 则 它们 的 激活 值 慢 慢 消 退 ， 逐 步 退出 决策 过 
程 。 

“世界 模型 ”包含 两 个 方面 : 1， 机 器 认识 世界 是 按照 “模式 识别 ”的 方式 
来 迭代 进行 的 。2， 机 器 是 按照 “利弊 价值 ”的 方式 ， 来 认识 世界 的 。 这 是 因为 
“ 利 闵 价值 ”是 人 类 建立 的 核心 “世界 模型 ”。 它 是 指导 人 类 一 切 行为 的 “世界 
模型 ”。 

所 以 ， 我 们 实现 了 “世界 模型 ”。 

5.2 我 们 实现 了 和 神经 网 络 兼容 的 逻辑 推理 能 

所 有 被 输入 Tokens 激励 的 “ 奖 罚 ”Tokens, 它们 的 激活 值 大 小 就 是 价值 预测 。 

从 输入 Tokens 到 被 激活 的 奖 罚 Tokens 的 传播 路 径 ， 就 是 和 连接 主义 完全 兼 
容 的 推理 能 力 ! 记忆 网 络 是 由 Tokens 按照 激活 值 传递 关系 组 织 起 来 的 神经 网 络 。 
激活 值 传 递 的 本 质 ， 就 是 实现 注意 力 机 制 的 推理 过 程 。 

Tokens 组 合 中 的 每 一 个 Token， 通 过 链 式 联想 激活 过 程 ， 激 活 了 和 自己 常见 
的 Tokens 组 合 ， 通 过 激活 值 罕 计 过 程 ， 就 能 实现 从 输入 组 合 COLI N 个 Tokens 
的 特定 组 合 概率 ) ， 求 出 和 输入 最 相关 的 Tokens 组 合 ( 求 M 个 Tokens 的 特定 组 
合 概率 ) ， 而 记忆 库 中 最 终 的 激活 值 分 布 就 是 获得 的 贝 叶 斯 推理 结果 。 

事实 上 ， 目 前 大 模型 中 的 注意 力 机 制 ， 已 经 实现 了 和 神经 网 络 兼容 的 逻辑 推 
时 能力。 但 存在 两 个 缺陷 ，1， 深 度 学 习 破 坏 了 原 有 的 Tokens 时 间 和 空间 的 组 织 
形式 ， 导 致知 识 难 以 被 理解 ,无 法 被 模仿 。2， 缺乏 “主观 Tokens”《〔 比 如 需求 、 
HAMAN) 。 所 以 大 模型 的 推理 过 程 是 有 缺 陷 的 。 
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图 灵 奖 获得 者 ， 深 度 学 习 三 巨头 之 一 的 Yushua Bengio 教授 ， 认 为 实现 通用 
人 工 智 能 最 重要 一 步 就 是 : 把 神经 网 络 和 因果 推理 相 结合 起 来 。 事 实 上 ， 我 们 的 
方案 已 经 实现 了 这 一 点 : 记忆 网 络 就 是 全 连接 的 神经 网 络 ， 从 输入 Tokens 到 被 
激活 的 “世界 模型 ”， 就 是 对 客观 世界 组 织 方式 的 因果 推理 ， 从 输入 Tokens 到 
被 激活 的 “主观 Tokens HE” REEK, AMH Tokens) ， 就 是 客观 
世界 和 机 器 自身 需求 之 间 的 因果 推理 。 

所 以 ， 我 们 实现 了 “把 神经 网 络 和 因果 推理 相 结 合 起 来 ”。 事 实 上 ,目前 的 
大 模型 已 经 实现 了 客观 推理 能 力 和 部 分 主观 推理 能 力 , 但 它们 的 推理 过 程 ， 人 类 
难以 理解 ， 无 法 模仿 ， 所 以 难以 被 利用 。 

5.3 我 们 实现 了 层次 化 的 “通用 决策 能 力 ” 

机 器 只 强化 学 习 一 种 任务 :“ 如 何 满足 自身 需求 ? ”, 也 只 处 理 一 种 任务 “如 
何 满足 自 喘 需求 ”? 所 以 我 们 的 机 上 器， 决策 是 “ 面 对 自 喘 需求 "而 目前 其 他 AI 
方案 ， 决 策 是 面 对 形形色色 的 “任务 本 身 ”。 

信息 输入 ， 产 生 各 种 联想 ， 有 好 有 坏 。 降 低 那些 带 来 “惩罚 “的 Tokens 发 生 概 
率 ， 提 升 那些 带 来 “奖励 “的 Tokens 发 生 概率 ， 这 就 是 “通用 决策 "! 这 和 人 类 决策 
是 相似 ， 所 以 通用 ! 

有 了 奖励 函数 的 前 置 化 和 步骤 化 ， 机 器 就 有 了 “决策 能 力 ”。 有 了 “ 趋 利 避 
害 ” 这 个 通用 目标 ， 机 器 就 可 以 实现 “通用 决策 ”能 力 。 

(5.3.1 目前 的 “机 器 学 习 ” 不 是 真正 的 “机 器 学 习 ” 

面 对 一 个 新 任务 ， 人 是 根据 自己 的 经 验 ， 预 测 不 同 决 策 的 “好 坏 ”， 最 多 选 几 
个 方案 去 尝试 。 

面 对 一 个 新 任务 ， 目 前 机 器 靠 强 化 学 习 ， 就 是 “不 断 试 "， 要 么 是 (1) 尝试 一 
百 万 次 ,看 结果 (Google 各 种 打 游 戏 的 AD; 要 么 是 (2) 请 人 类 告诉 我 好 坏 (GPT-4， 
大 模型 ，RLHF) 2， 然 后 才能 获得 处 理 这 个 问题 的 诀 策 知识 。 

所 以 目前 的 机 器 学 习 , 走 的 是 “ 先 尝 试 "+“ 再 淘汰 ”的 路 子 。 所 以 他 们 应 该 叫 “ 机 
右 进 化 ”， 不 能 叫 “ 机 器 学 习 ”。 所 以 我 们 提出 了 AGI 需要 真正 的 “机 器 学 习 ”。 

什么 才 是 真正 的 “机 器 学 习 ”? 我 们 认为 , 真正 的 机 器 学 习 , 应 该 像 人 类 一 样 ， 
面 对 一 个 新 任务 ， 可 以 根据 自己 过 去 的 经 验 ， 来 预测 不 同 决 策 路 径 下 的 “好 坏 ”， 
最 多 选 有 限 几 个 方案 去 尝试 ,就 可 以 获得 处 理 新 任务 的 决策 知识 。 更 进一步 , 我 
们 认为 真正 的 学 习 ， 也 应 该 和 孩子 学 习 方式 类 似 , 通过 语言 来 直接 获得 人 类 已 经 
只 累 的 经 验 。 在 面 对 新 任务 时 ,一 次 尝试 都 不 需要 ， 直 接 一 次 成 功 ! 比如 在 实验 
室 里 ， 老 师 教 孩子 们 做 实验 时 ， 是 通过 语言 传授 ， 直 接 把 人 类 已 有 的 决策 经 验 传 
递 给 孩子 们 。 孩 子 们 可 以 在 获得 老师 传递 过 来 的 知识 后 ， 可 以 在 不 同 的 环境 下 ， 
利用 语言 获得 的 经 验 ， 和 环境 互动 ， 就 可 以 直接 完成 实验 。 尽 管 孩 子 们 可 能 是 第 
一 次 做 这 些 实验 ! 

真实 任务 千差万别 ， 真 实 场景 干 差 万 别 ， 人 类 无 法 把 每 一 类 任务 都 放 到 大 量 
场景 中 去 “强化 学 习 ”! 所 以 ， 必 须 转 变 思 路 ! 思路 就 是 : 把 所 有 任务 都 转换 为 单 
一 任务 :“ 如 何 满足 自己 的 需求 ”? 机 器 的 所 有 训练 过 程 ， 都 是 训练 这 一 个 任务 。 
所 以 , 面 对 这 个 任务 , 机 器 已 有 大 量 的 “state” and “policy” 知 识 , 所 以 可 以 预测 “不 
同 决策 ”下 潜在 的 “ 利 次 ”估计 。 

而 人 类 赋予 给 机 器 的 任务 ， 就 是 机 器 解决 “如 何 满 足 自己 的 需求 "任务 的 背景 
信息 。 如 果 “ 获 得 人 类 认可 ”是 机 器 的 需求 之 一 ， 那 么 机 器 在 追求 “满足 自己 的 
需求 ”的 过 程 中 ， 就 会 把 “完成 人 类 的 任务 ”纳入 整体 的 利 次 统计 中 。 这 和 人 类 
是 类 似 的 ， 面 对 老板 给 予 的 任务 ， 你 会 全 面 权衡 利 次 ,来 做 出 不 同 的 决策 。 比 如 


你 做 出 的 一 种 决策 可 能 是 : 主动 寻找 更 多 的 信息 ， 来 分 析 任 务 带 来 的 利 浆 影响 ， 
再 做 决策 。 而 主动 寻找 更 多 的 信息 ， 这 就 是 人 类 自己 给 自己 安排 的 新 任务 。 如 果 
机 器 也 这 样 决策 ， 那 么 就 等 同 于 机 器 给 自己 安排 任务 ， 也 就 是 说 ， 机 器 给 自己 编 
程 了 。 事 实 上 ， 我 们 的 机 器 就 是 采用 这 样 的 决策 流程 : 权衡 利 浆 来 定 策略 ， 并 且 
有 可 能 主动 寻找 信息 来 帮助 自己 实现 利益 最 大 化 。 

(5.3.2) “如何 实现 是 真正 的 “机 器 学 习 ”? 

十 年 前 ， 我 们 认为 要 想 创 建 真正 的 “知识 ”， 应 该 从 信息 统计 的 角度 入 手 。 
不 同 于 “深度 学 习 ”， 我 们 认为 机 器 应 该 按照 人 类 学 习 模 式 ， 采 用 小 样本 ， 知 识 
只 标的 方式 来 学 习 。 所以, 一 开始 也 是 试图 走 “ 符 号 表达 ”一 “因果 逻辑 ”一 “ 知 
识 网 络 ”。 

尝试 几 年 后 ， 发 现 这 条 路 的 第 一 步 就 走 不 通 。 因 为 “符号 表达 "人 *“ 狗 "怎么 表 
xk? 需要 把 “ 狗 " 的 所 有 特征 挑选 出 来 ,但 “ 狗 " 可 以 是 一 个 动物 , 也 可 以 是 一 个 人 ! 
可 以 是 “一 种 被 歌颂 的 性 格 ”， 还 可 能 是 “一 种 被 鄙视 的 性 格 ”"， 在 不 同 的 语 境 下 ， 
符号 “ 狗 ” 的 含义 差异 极 大 。 所 以 “ 狗 ” 的 本 质 是 “ 狗 ” 和 其 他 所 有 事物 关系 的 
总 和 。 所 以 “ 狗 ”， 必 须 放 到 整个 知识 网 络 中 ， 通 过 它 和 其 他 所 有 知识 的 关系 来 
定义 。 所 以 ，“ 符 号 主义 ” 走 不 通 ! 因为 “ 狗 ” 不 能 从 其 他 知识 中 分 割 出 来 ! 必 
须 建立 类 似 于 深度 学 习 的 “全 连接 知识 网 络 ”， 这 是 我 们 的 第 一 个 结论 。 

因为 “ 狗 ” 必须 放 到 整个 知识 网 络 中 ,通过 它 和 其 他 所 有 知识 的 关系 来 定义 。 
所 以 必须 要 有 足够 的 知识 ， 才 能 把 “ 狗 ” 这 个 事 说 明白 。 所 以 ，“ 知 识 数量 必须 要 
足够 “， 这 样 才能 通过 足够 的 背景 知识 来 理解 什么 是 狗 。 这 是 我 们 的 第 二 个 结论 。 

我 们 回头 一 看 ， 这 不 就 是 大 模型 干 的 事 吗 ? “深度 学 习 ” 就 是 干 全 连接 网 络 这 
事 ， 大 模型 就 是 于 “使 用 大 量 知 识 ， 来 建立 全 连接 知识 网 络 ” 这 事 。 

那么 ,为 什么 我 们 没有 看 到 满 大街 走 动 的 机 器 人 ? 因为 只 有 知识 网 络 还 不 行 ! 
机 器 还 必须 能 够 “和 环境 互动 决策 "! 有 研究 表明 : 人 类 每 天 都 做 3 万 多 次 决策 。 
目前 业界 已 知 的 ， 除了 专家 系统 外 ， 能 让 机 器 自己 来 实现 决策 ， 只 有 强化 学 习 算 
法 了 。 

所 以 ， 要 想 走向 通用 人 工 智 能 ， 一 条 可 能 道路 就 是 : 大 模型 + 强化 学 习 算 
法 。 事 实 上 ，GPT-4 已 经 实现 了 “全 部 知识 + 全 连接 网 络 + RLHF”，RLHF 就 是 
强化 学 习 。Google Æ 2022 年 发 布 了 GaTo 模型 ， 己 经 走 了 “全 部 知识 + 全 连接 
网 络 + 强化 学 习 ” 道 路 。 

那么 ， 为 什么 我 们 没有 看 到 Google 推出 满 大 街 走 动 的 机 器 人 ? 

这 条 路 的 核心 障碍 是 ， 强 化 学 习 算 法 ， 需 要 的 两 个 前 提 条 件 C4: 

CD ， 机 器 需要 知道 不 同 决策 路 径 下 ， 它 能 获得 的 奖励 信息 。 因 为 实际 过 
程 中 ,奖励 信息 存在 稀缺 和 滞后 的 问题 , 所 以 目前 解决 这 个 问题 靠 大 量 的 试 错 训 
练 。 (2) ， 机 器 需要 遍历 搜索 所 有 可 能 的 决策 。 

这 两 个 条 件 ， 在 游戏 里 能 完美 满足 。 游 戏 可 以 不 断 试 ， 决 策 的 搜索 空间 有 边 
界 (还 可 以 各 种 修剪 降低 搜索 空间 ) 。 但 现实 生活 中 , 很 多 问题 无 法 不 断 试 错 ( 比 
如 照顾 孩子 ， 没 有 人 愿意 让 你 不 断 试 ! ) ， 也 没有 明确 的 边界 ， 所 以 这 个 问题 解 
决 不 了 ! 这 就 是 Google 不 断 推出 可 以 打 各 种 非常 复杂 策略 游戏 的 Al， 却 一 直 无 
法 推出 最 基础 的 “家 庭 保 姆 型 机 器 人 ”的 原因 ! 事实 上 , 在 日 常生 活 中 ， 绝 大 多 
数 的 决策 复杂 度 ， 远 没有 游戏 中 的 决策 复杂 ! 但 因为 现实 生活 中 ， 很 多 事 不 能 海 
量 试 错 ! 而 且 现 实生 活 中 ， 相 关 的 信息 并 没有 明确 边界 。 所 以 上 面 两 大 困难 ， 导 
致 Open-Al 或 者 Google， 通 过 “大 模型 + 强化 学 习 ”， 基 本 只 能 用 来 搞 那 些 
可 以 海量 试 错 的 东西 。 因 此 AlGC， 距 离 AGIl， 还 有 很 长 的 一 段 路 ! 


我 们 的 决策 方案 ， 本 质 也 是 强化 学 习 ， 但 只 强化 学 习 如 何 趋 利 避 害 。 而 且 我 
们 利用 了 在 链 式 联想 激活 过 程 ， 自 动 限 定 了 搜索 范围 ! 只 搜索 被 激活 的 信息 ! 而 
且 我 们 利用 了 “Tokens” 一 “ 奖 习 符号 ”的 逻辑 链 ， 自 动 预测 奖 昼 信息， 而 不 是 
只 有 事后 反馈 才能 获得 奖 罚 信息 。 所 以 我 们 完美 的 解决 了 Google 的 决策 型 人 工 
智能 只 能 打 游 戏 的 问题 ! 

这 是 因为 我 们 同步 实现 了 “客观 常识 ”+“ 主 观 常识 ”。 而 现 有 的 技术 路 线 ， 
采用 的 技术 路 线 是 先 实现 “客观 常识 ”， 然 后 通过 “RLHF” 来 建立 “主观 常识 ”。 
所 以 目前 的 技术 路 线 , “主观 常识 ”是 通过 事后 反馈 来 获得 的 ， 所 以 它 只 能 适用 
于 可 以 大 量 试 错 的 领域 。 

(5.3.2) “通用 决策 ”的 实现 过 程 。 

机 器 在 任意 环境 中 ， 输 入 信息 都 包括 所 有 传感器 信息 。 所 以 在 任何 时 刻 ， 机 
器 所 处 的 环境 信息 都 是 输入 信息 的 一 部 分 。 

机 器 和 环境 互动 决策 ， 包 括 两 个 方面 : 

1， 最 优 决策 的 选择 。 

2， 决 策 过 程 的 执行 。 

这 两 个 步骤 ， 不 是 分 开 的 ! 是 交织 在 一 起 ， 并 行 处 理 的 ! 

“通用 决策 ”需要 解决 的 第 1 问题 是 : 奖励 函数 是 什么 ?在 GPT-4 里 面 ， 在 
Alpha go 里 面 ， 奖 励 来 自 于 最 终 的 外 部 有 反馈。 而 在 我 们 的 AGI 中 ， 奖 励 来 自 于 外 
界 信息 所 激活 的 “奖励 ”和 *“ 惩 加 "符号 ， 大 小 就 是 它们 的 激活 值 。 

S8 129: 目的 是 啥 ? 

当 信 息 输入 (外 界 + 机 器 自身 监控 信息 ) 输入 后 ， 有 一 些 奖励 符号 和 惩罚 
符号 被 激活 。 

每 一 条 从 输入 > 奖励 符号 和 惩罚 符号 的 激活 值 传递 路 征 ， 就 是 一 条 潜在 的 ， 
产生 奖励 或 者 惩罚 的 逻辑 链 路 。 

如 果 这 条 逻辑 链 路 上 ， 个 底层 特征 都 真实 地 实现 了 ， 那 么 这 条 逻辑 链 路 
所 传播 的 奖励 或 者 惩罚 也 就 实现 了 。 

所 以 机 器 对 任何 输入 信息 的 响应 ， 都 一 样 : 增加 奖励 逻辑 链 发 生 的 概率 ， 降 
低 惩 罚 逻 辑 链 发 生 概 率 ， 来 达到 趋 利 避 害 的 目的 。 

第 2 步 : 有 了 目的 ， 怎 么 规划 ? 

， 怎 么 增加 奖励 链 路 ， 降 低 惩罚 链 路 的 发 生 概率 ? 

就 是 增加 ， 或 者 降低 ， 链 路 上 的 高 激活 值 Tokens 组 合 的 实现 概率 。 链 路 上 的 
高 激活 值 Tokens 组 合 ， 就 是 这 条 链 路 的 高 权重 的 Tokens 组 合 。 当 它们 为 真 ， 则 
沿 这 条 链 路 传播 的 激活 值 为 真 , 所 以 最 终 被 激活 的 奖励 , 或 者 惩罚 , 也 就 为 真 的 。 

2， 有 具体 怎么 操作 ? 

从 输入 信息 > 奖 罚 符号 的 激活 值 传递 路 径 上 , 选用 激活 值 最 高 的 N 个 Tokens, 
它们 束 是 导致 奖励 ， 或 者 带 来 惩罚 为 真 的 顶层 实现 路 径 。 机 器 的 目标 就 是 : 1， 
让 奖励 路 径 上 的 Tokens 实现 (就 是 模仿 过 去 的 经 验 , 让 它们 出 现在 输入 信息 中 )。 
2， 让 惩罚 路 径 上 的 Tokens 不 能 实现 (就 是 模仿 过 去 的 经 验 ， 避 免 它们 出 现在 输 
入 信息 中 ) 。 

所 以 ， 从 输入 ”> 奖 罚 的 逻辑 通路 上 ， 选 取 激 活 值 最 高 的 N 个 Tokens， 包 含 它 
们 的 激活 值 传 播 路 径 ， 就 是 顶层 实现 路 径 。 为 什么 机 器 只 选 激活 值 最 高 的 N 个 
Tokens? 因为 这 些 Tokens， 要 么 是 因为 它们 是 一 类 事物 的 代表 性 Tokens， 所 以 记 
忆 值 高 ， 从 而 获得 了 更 高 的 激活 值 ; 要 么 就 是 和 输入 信息 关系 密切 的 Tokens。 由 
于 数量 少 , 相当 于 属性 限定 少 , 所 以 和 它们 关系 最 密切 的 概念 通常 是 “抽象 概念 ”。 


由 于 语言 符号 使 用 很 频繁 , 所 以 语言 Tokens 常常 获得 高 激活 值 , 成 为 构成 “ 抽 
象 概 念 ”Tokens 组 合 的 激活 值 最 高 的 核心 Tokens, 使 得 语言 符号 成 为 概念 本 身 的 
代表 。 比 如 “吃饭 ”、“ 逃 避 ” 等 抽象 概念 。 需 要 指出 的 是 ，“ 抽 象 概念 ”并 非 
是 语言 符号 的 专利 ， 动 物 同 样 可 以 有 “顶层 决 策 ”。 

所 以 机 器 建立 决策 的 过 程 , 是 优先 “抽象 概念 ”然后 逐步 增加 更 多 的 Tokens, 
形成 更 加 具体 的 概念 组 合 。 这 就 是 自 顶 而 下 ,逐步 展开 的 决策 和 执行 过 程 。 我 们 
把 这 个 过 程 称 为 “分 段 模仿 ”。 

关于 分 段 模仿 的 方法 具体 示例 : 

假定 把 输入 Tokens 的 集合 作为 A， 把 响应 Tokens 的 集合 作为 B; 机 器 通过 A 
和 B 链 式 联想 激活 过 程 ， 寻 找 那些 高 激活 值 Tokens， 这 些 Tokens 是 和 A、B 都 存 
在 连接 关系 的 Tokens, 因为 它们 从 A 和 B 都 获得 激活 值 ,所 以 成 为 高 激活 值 Tokens。 
它们 就 是 连接 A 和 B 的 中 间 桥 梁 Tokens。 这 个 过 程 和 迭代 进行 ， 就 能 实现 自 顶 而 
下 ， 逐 层 决策 。 

在 计算 机 中 怎么 实现 ?采用 的 方法 是 : (1) 外 界 输入 Tokens 进行 链 式 联想 
激活 过 程 一 确定 奖 神 符号 的 激活 值 〈( 超 过 预 设 值 的 Tokens 作为 目标 ) ， 建 立 一 
级 目标 。 CO 从 激活 值 最 高 的 奖 罚 符号 开始 ， 找 到 从 输入 到 每 一 个 一 级 目标 的 
激活 值 传递 路 径 上 ， 激 活 值 最 高 的 N 个 Tokens， 它 们 就 是 实现 对 应 奖 罚 的 逻辑 
链 路 。 链 路 上 的 Tokens 就 是 二 级 目标 。 (3) 机 器 以 每 个 二 级 目标 作为 新 目标 ， 
把 它们 作为 一 种 新 的 输入 Tokens, 给 与 它们 初始 激活 值 ， 再 次 发 起 链 式 联想 激活 
过 程 。 所以， 那些 最 高 激活 值 的 Tokens， 就 是 和 外 界 输入 Tokens， 以 及 和 二 级 目 
ER Tokens 都 相关 的 Tokens 组 合 。 这 是 因为 我 们 采用 了 激活 值 累 计 和 激活 值 消退 ， 
只 有 和 最 近 输 入 Tokens 相关 的 Tokens 才能 维持 激活 状态 。 所 以 这 些 Tokens 就 是 
三 级 目标 。(4) 这 个 过 程 迭 代 进 行 ， 机 器 就 能 把 每 一 个 一 级 目标 都 分 解 成 实现 
它们 的 层次 化 逻辑 链 路 。 (5) 决策 过 程 的 每 一 次 展开 ， 会 有 不 同 的 奖励 值 或 者 
惩罚 值 被 选择 , 进入 累计 。 机 器 按照 趋 利 避 害 的 原则 , 选择 带 来 奖励 值 的 子路 径 ， 
避免 带 来 惩罚 的 子路 径 , 从 而 增加 昧 积 的 奖励 值 , 当 机 器 发 现 总 的 奖 罚 值 收 敛 了 ， 
也 就 是 无 法 进一步 改善 了 ,也 就 是 利益 最 大 化 了 。 机 器 就 停止 进一步 展开 ， 进入 
执行 过 程 。 这 就 是 Yann Lecun 教程 提出 的 层次 化 “通用 决策 能 力 ”， 也 是 Bengio 
教授 提出 的 和 神经 网 络 兼容 的 逻辑 推理 能 

为 什么 每 一 次 展开 都 只 选 N 个 最 高 激活 值 的 Tokens? 这 是 因为 过 去 经 验 和 目 
前 实际 不 可 能 完全 匹配 , 所 以 通过 只 选用 最 高 激活 值 Tokens, 意味 着 由 它们 组 成 
的 “模型 ”要 么 是 抽象 的 (适用 范围 广 ) ， 要么 是 和 输入 Tokens 密切 相关 的 《〈 匹 
配 度 好 ) 。 只 选 N 个 最 高 激活 值 的 Tokens 的 目的 ， 是 为 了 实现 经 验 泛 化 。 所 以 ， 
在 我 们 的 方案 中 ， 经 验 泛 化 是 自动 实现 的 。 

比如 ， 机 器 有 使 用 钉 锤 砸 钉子 的 经 验 ， 在 需要 砸 和 钉子， 并且 没有 和 钉 锤 的 情况 
下 ， 并 且 输 入 Tokens 中 存在 石头 的 情况 下 ， 为 了 实现 一 级 目标 〈 奖 励 符号 或 者 
惩罚 符号 ， 完 成 任务 ， 获 得 奖励 ， 或 者 避免 被 惩罚 ) ， 在 被 激活 的 逻辑 链 路 上 ， 
可 能 包含 了 代表 钉 锤 的 Tokens 组 合 。 那 么 ， 这 些 Tokens 组 合 就 成 为 二 级 目标 。 

机 器 根据 记忆 库 中 的 链 式 联想 激活 过 程 , 可 能 发 现 了 M 条 实现 钉 锤 目标 的 激 
活 值 传递 路 径 ， 可 能 是 从 “记忆 中 的 工具 箱 出 发 ”， 还 可 能 是 从 “向 队友 借用 相 
关 经 验 ” 出 发 ， 这 些 激活 值 传递 路 径 都 是 提高 “ 钉 锤 ”Tokens 实现 概率 的 路 径 ， 
也 就 是 通 癌 奖励 的 二 级 路 径 。 

由 于 石头 相关 Tokens 则 出 现在 输入 中 , EMEA Tokens (比如 重量 
数据 、 尺 寸 大 小 、 硬 度 感 觉 等 ) 就 可 能 获得 更 高 的 累计 激活 值 ， 从 而 被 作为 前 N 
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个 高 激活 值 ， 被 挑选 出 来 。 它们 就 变 成 了 桥梁 Tokens， 使 得 从 石头 相关 的 Tokens 
出 发 ， 也 成 为 通 癌 奖 励 的 二 级 路 径 。 这 就 是 经 验 泛 化 过 程 ， 通 过 石头 和 钉 锤 共有 
的 Tokens， 使 得 石头 的 Tokens 可 以 向 奖励 符号 传递 激活 值 。 之 所 以 能 够 实现 ， 
是 因为 “石头 ”和 “和 钉 锤 ”拥有 部 分 共有 属性 A Tokens， 而 这 部 分 Tokens 
在 记忆 中 ， 能 够 重复 出 现在 各 种 “用 钉 锤 砸 钉子 ”的 场景 中 ) ， 它 们 就 是 经 验 泛 
化 的 桥梁 。 可 以 看 到 ， 在 我 们 的 方案 中 ， 经 验 泛 化 过 程 是 自动 完成 的 。 

那么 ， 机 器 选用 哪 条 通 向 奖励 的 二 级 路 径 呢 ? 这 时 ， 机 器 需要 根据 新 链 式 联 
想 激 活 过 程 更 新 了 的 激活 Tokens 空间 ， 按 照 行 趋 利 避 害 原则 ， 重 新 来 选择 自己 
的 决策 路 径 。 有 些 路 径 ， 既 可 能 带 来 奖励 ， 有 可 能 带 来 惩罚 ， 这 时 导致 机 器 在 统 
计 奖 罚 值 时 难以 收敛 。 如果 机 器 发 现 奖 罚 值 统计 没有 收 化 ,机 器 的 决策 就 是 进 一 
步 识别 信息 ， 来 收敛 每 一 条 奖 罚 值 传递 路 径 。 

比如 “记忆 中 的 工具 箱 出 发 ”就 需要 确认 一 下 “工具 箱 ” 目 前 出 现在 输入 中 
(实现 ) 的 概率 是 多 少 ? 这 个 概率 就 可 以 进一步 收敛 这 条 路 径 的 奖 罚 值 。 这 时 ， 
确认 一 下 “工具 箱 ” 目前 出 现在 输入 中 概率 ,就 成 为 机 器 自我 创建 的 一 个 新 目标 。 
为 了 完成 这 个 “新 目标 ”， 机 器 需要 模仿 过 去 的 经 验 去 执行 。 假 如 在 过 去 的 记忆 
中 ， 它 的 工具 箱 都 挂 在 腰 间 ， 那 么 它 模 仿 过 去 的 经 验 去 确定 这 个 工具 箱 相关 的 
Tokens 出 现在 输入 中 ， 最 可 能 模仿 的 过 程 就 是 用 “ 手 ” 拍 一 下 腰 间 ， 去 重 现 过 去 
手 碰 到 “工具 箱 ” 的 各 种 传感器 数据 组 合 。 因 为 这 种 决策 下 花费 的 电量 最 小 ， 使 
用 的 时 间 最 少 ， 能 够 实现 机 器 自身 的 利益 最 大 化 ， 所 以 这 就 是 优选 决策 路 径 。 

再 比如 ，“ 辐 队友 借用 ”这 条 路 径 ， 有 需要 提升 这 条 路 径 上 Tokens 的 实现 概 
率 ， 才 可 能 给 奖励 符号 传递 更 大 的 激活 值 〈《 获 得 更 大 的 奖励 ) 。 所 以 ， 机 器 最 可 
能 模仿 的 经 验 就 是 扭头 看 ， 或 者 询问 。 

所 以 ， 在 我 们 的 方案 中 ， 机 器 的 决策 是 非常 复杂 的 ， 在 一 个 决策 路 径 中 ， 可 
BERE W 个 决策 和 执行 过 程 ， 但 任何 时 刻 ， 机 器 的 唯一 目标 都 是 “ 趋 利 避 害 ”。 
所 有 决策 都 是 围绕 这 个 目标 衍生 出 来 的 。 所 以 ， 机 器 的 决策 是 非常 灵活 的 ， 它 时 
刻 根据 环境 状态 变化 而 变化 ， 并 没有 预 置 流程 。 而 唯一 的 预 置 流程 只 是 : “ 趋 利 
避 害 ”。 

上 述 过 程 迭代 进行 ， 每 一 次 都 有 新 的 奖 罚 符号 被 激活 。 机 器 通过 统计 这 些 奖 
罚 符 号 的 激活 值 ， 直 到 发 现 奖 罚 符号 的 激活 值 收敛 为 止 。 这 时 机 器 就 建立 了 最 优 
响应 路 径 。 

机 器 的 决策 有 可 能 是 对 输入 信息 的 响应 ,也 有 可 能 是 寻找 更 多 的 信息 来 继续 
做 决策 。 无 论 是 哪 一 种 ， 机 器 都 是 通过 模仿 过 去 的 经 验 来 提升 或 者 降低 特定 
Tokens 的 实现 概率 。 任 何 时 候 ， 有 新 的 信息 输入 后 ， 新 信息 会 通过 链 式 联想 激活 
过 程 ， 更 新 记忆 库 中 的 激活 值 分 布 。 这 时 机 器 需要 根据 新 的 状态 ， 重 新 统计 奖 罚 
信息 ， 重 新 寻找 最 优 决 策 。 只 有 有 新 的 信息 ， 这 个 过 程 时 时 刻 刻 都 在 进行 。 

第 3 步 : 有 了 规划 ， 怎 么 执行 ? 

执行 , 就 是 通过 模仿 过 去 的 经 验 , 来 提高 , 或 者 降低 特定 的 Tokens 发 生 概 率 。 

1， 选 用 少量 最 高 激活 值 底 层 特 征 >》 抽 象 决 策 路 径 。 

2， 增 加 更 多 高 激活 值 底层 特征 > 抽象 决策 路 径 具 体 化 。 

3， 上 面 步骤 1、 步骤 2 迭代 进行 ， 直 到 把 决策 分 解 到 可 以 执行 的 驱动 命令 为 
止 。 驱 动 命令 : 给 喇叭 送 波形 ， 给 电机 发 驱动 命令 ， 给 显示 屏 发 送 显 示 数 据 ， 给 
表情 展示 系统 发 送 设置 参数 等 。 

4， 随 时 都 可 能 碰 到 新 输入 信息 ， 新 输入 信息 会 改变 记忆 库 中 的 激活 值 ， 改 
变 奖 罚 情况 ， 所 以 机 器 在 实施 最 优 响应 路 径 过 程 中 ， 有 可 能 随时 改变 原 有 计划 ! 


第 4 步 : 决策 和 执行 过 程 中 的 分 段 模 仿 。 

机 器 通过 链 式 联想 激活 过 程 , 可 以 找到 和 目前 输入 相关 的 经 验 。 这 些 经 验 中 ， 
那些 少量 高 激活 值 Tokens 构成 的 概率 ， 由 于 抽象 性 高 ， 所 以 它们 通常 是 具有 代 
表 性 的 抽象 经 验 。 这 些 经 验 包 含 了 和 输入 Tokens 相关 的 “前 因 ” 和 “后 果 ”， 
它们 就 是 经 验 泛 化 的 对 象 。 

经 验 泛 化 ， 本 质 就 是 利用 已 发 生 过 程 的 因果 ， 来 实现 未 发 生 过 程 的 因果 。 而 
在 我 们 的 方案 中 ， 是 通过 两 个 过 程 中 “共有 Tokens” 的 激活 值 传递 过 程 ， 来 自动 
完成 的 。 由 于 两 个 过 程 中 ，Tokens 并 不 一 致 ， 这 就 对 应 了 经 验 泛 化 过 程 中 的 不 匹 
配 问 题 。 但 这 个 问题 ， 在 我 们 的 方案 中 ， 两 个 过 程 的 经 验 ， 是 通过 它们 共有 的 
Tokens 来 实现 激活 值 传递 过 程 ， 来 自动 完成 泛 化 的 。 

需要 特别 指出 , 机 器 的 概念 是 由 各 种 Tokens 通过 庞大 的 立体 网 络 形成 的 。 同 
样 的 Tokens 可 能 分 布 在 不 同 的 记忆 片段 里 。 这 些 Tokens 既 有 可 能 来 自 于 自身 的 
经 历 ， 也 有 可 能 来 自 于 语言 符号 的 输入 。 

因此 语言 符号 本 身 被 激活 后 ， 会 激活 那些 语言 符号 所 代表 的 相关 Tokens。 而 
语言 符号 本 身 存 在 次 序 ， 以 及 语言 序列 中 通 ? pep Tokens 组 合 次 序 的 
和 所 以 语言 符号 序列 的 背后 ， 是 Tokens 时 间 、 Nou) 

空间 组 合 次 序 ， 就 是 “因果 关系 ”。 并 且 ， 这 些 “ 因 果 关 系 ” “语言 符号 ” 
的 链 式 联想 激活 过 程 ， 能 够 形成 紧密 的 激活 值 传递 关系 。 xd M LARUM 
递 关系 ， 本 身 就 是 一 种 “经 验 ”。 所 以 ， 在 我 们 的 方案 中 ， 经 验 不 仅仅 是 来 自 于 
机 器 自身 的 经 历 ， c eod s s 所 以 ， 我 们 
的 机 器 , 既 可 以 通过 语言 符号 来 学 习 “ 经 验 ”, 也 可 以 通过 语言 符号 构成 的 Tokens 
信息 流 ， 来 模仿 “经 验 ”。 


6， 我 们 方案 和 目前 大 模型 道路 的 对 比 。 


我 们 的 方案 ， 解 决 了 如 下 问题 : 

CD 如 何 “ 建 立 管 识 ” 的 问题 。 

深度 学 习 破 坏 了 原 有 Tokens 的 时 间 、 衬 间 关 系 ! 而 我 们 的 方案 中 ， 采 用 “ 链 
式 联 想 激 活 过 程 + 记忆 和 遗 筷 机 制 ” 同 样 实现 了 注意 力 机 制 。 但 我 们 没有 采用 
深度 学 习 ， 所 以 我 们 的 方案 ， 其 创建 的 知识 保留 了 的 Tokens 原始 的 时 间 、 空 间 
关系 。 而 原始 的 Tokens 组 合 方式 ， 正 是 人 类 “概念 ”的 基础 。 所 以 ， 在 我 们 的 
方案 中 ， 其 创建 的 “知识 ”是 人 类 可 以 理解 ， 可 以 模仿 的 知识 。 

在 我 们 的 方案 中 ，“ 知 识 ” 的 本 质 就 是 Tokens 在 时 间 和 空间 中 的 排列 关系 ， 
以 及 不 同 Tokens 排列 对 智能 体 潜 在 利 次 的 预测 。 而 Tokens 在 时 间 和 空间 中 的 排 
列 关 系 本 质 就 是 “因果 ”， 这 些 Tokens 在 时 间 和 空间 中 的 排列 关系 并 非 简单 的 
时 间 、 空 间 临 近 关系 ， 而 是 智能 体 从 中 总 结 出 来 的 ， 8 8 重复 出 现 的 关系 ， 它 们 实 
际 跨 越 的 时 间 和 空间 跨度 有 可 能 很 大 , 但 通过 链 式 联想 激活 过 程 , 这 些 时 间 和 空 
间 跨 度 大 的 Tokens， 形 成 了 紧密 的 激活 值 传 递 关 系 ， 这 就 是 知识 。 如 果 知 识 中 包 
含 了 代表 “需求 ”、“ 情 感 ”、“ 利 次 ”相关 的 Tokens， 这 就 能 预测 潜在 的 利 次 
所 以 Tokens 的 排列 就 代表 了 “知识 ”。 而 那些 常见 的 排列 就 是 “常识 ”。 

(2) “机 器 是 否 可 以 有 意识 ”的 问题 

我 们 解决 了 如 何 给 ALERT ARER” 所 以 ， 机 器 能 自主 决策 ， 自 我 进 
化 ， 可 以 有 自己 的 情感 ， 可 以 追求 “自我 需求 ”， 所 以 我 们 的 机 器 是 有 “意识 ” 
的 。 


(3) “通用 决策 ”问题 。 

机 器 面 对 任 何 任务 ， 都 按照 “ 趋 利 避 害 ”来 决策 。 人 类 给 与 的 任务 ， 是 机 器 
追求 “自我 需求 ”的 副产品 。 

这 个 和 你 完成 老板 交代 的 任务 是 一 回 事 。 你 也 是 在 追求 “自我 需求 ”的 过 程 
中 ， 完 成 老板 交代 的 任务 。 如 果 两 者 有 冲突 ， 你 也 会 按照 趋 利 避 害 来 做 出 各 种 不 
同 的 变通 决策 , 试探 老板 的 真实 意图 , 考虑 老板 的 底线 , 所 以 你 的 决策 会 很 灵活 ! 

(4) “语言 理解 ”问题 。 

因为 我 们 没有 破坏 Tokens 原来 的 时 间 、 空 间 关 系 。 语 言 序 列 代表 的 Tokens 
时 间 、 空 间 序 列 是 可 以 被 理解 ， 可 以 被 模仿 的 。 所 以 机 器 可 以 通过 语言 ， 像 人 类 
一 样 直接 学 习 各 种 技能 。 读 一 遍 烤 箱 手 册 ， 束 可 以 开始 烤 面 包 中 ID , 

我 们 认为 ， 我 们 的 道路 ， 是 一 条 通 向 AGI 的 可 行道 路 。 

优势 1: 能 处 理 那些 无 法 大 量 试 错 的 任务 。 

比如 自动 驾驶 ， 家 庭 保 姆 ， 照 顾 老 人 人， 陪伴 孩子 ， 从 事 “ 工 农 兵 学 商 ”。 

因为 我 们 是 “类 人 ”Al， 能 够 通用 决策 ， 能 用 语言 学 习 技能 ! 而 目前 大 模型 
无 法 搞定 这 些 事 ! 

优势 2; 能 解决 “幻觉 ”问题 。 

大 模型 只 有 局 部 统计 获得 的 “常用 语 ”， 没 有 事实 记忆 。 

我 们 的 方案 ， 首 先是 存储 记忆 ， 然 后 从 记忆 中 提取 常见 信息 。 所 以 我 们 是 自 
带 “ 事 实数 据 库 ”， 而 且 和 知识 融 为 一 体 。 

优势 3: 能 通过 语言 直接 学 习 技能 ， 并 模仿 。 

因为 我 们 没有 破坏 Tokens 组 合 的 时 间 、 空 间 关 系 ， 所 以 语言 代表 的 Tokens 
时 空 关 系 可 以 被 理解 ， 被 模仿 ! 这 一 点 ， 无 论 现 在 ， 还 是 未 来 ， 大 模型 都 实现 不 
T! 比如 “机 器 人 ”第 一 天 到 面包 店 上 班 ， 它 会 找 老 板 要 “烤箱 ”操作 手册 。 读 
一 遍 ， 直 接 开 始 “ 烤 面 包 ”， 不 需要 单独 的 训练 ! 

优势 4: 更 安全 ! 

(1) 目前 人 工 智能 是 单一 目标 ， 从 决策 来 讲 ， 它 就 是 “为 达 目 标 ， 不 择 手 
段 ” 的 “一 根 筋 思 维 型 ”人 工 智 能 。 这 样 的 人 工 智能 ， 它 不 会 去 考虑 目标 之 外 的 
任何 东西 ， 决 策 还 是 黑 傅 的 。 想 想 如 果 “ 闽 铅 子 ”+“ 一 根 筋 ” 类 型 的 人 控制 了 
你 的 生活 ， 这 有 多 危险 ! 如 果 让 这 样 的 人 工 智能 全 面 掌控 人 类 的 生活 ， 它 完全 可 
能 因为 理解 错误 ， 出 于 好 意 地 给 人 类 带 来 无 法 估量 的 灾难 。 

(2) 而 在 我 们 的 方案 中 ， 机 器 的 “需求 类 型 ”是 可 以 预 置 的 ， 价 值 观 是 可 
以 被 训练 的 ， 可 以 对 齐 人 类 的 价值 观 ， 任何 时 候 机 器 都 会 综合 考虑 各 种 目标 ,不 
会 出 现 “ 偏 激 ” 行 为 。 而 且 , 在 我 们 的 方案 中 ,决策 是 可 见 的 、 可 修改 的 , 是 “ 白 
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7， 我 们 方案 的 底层 逻辑 。 
7.1 链 式 联想 激活 过 程 就 是 注意 力 机 制 。 

首先 ， 我 们 认为 知识 的 本 质 是 信息 。 而 人 类 产生 的 知识 ， 是 信息 的 极 小 一 部 
分 。 这 是 因为 ， 我 们 人 类 对 信息 的 分 辨 率 是 有 限 的 。 一 颗 小 草 上 A 原子 和 B 原 
子 排列 的 相对 时 空 关 系 ， 也 是 一 种 信息 ， 但 我 们 不 会 去 识别 它 。 

所 以 人 类 在 进化 的 过 程 中 , 产生 了 Tokens 识别 能 力 。Tokens 就 是 人 类 常用 的 
最 小 信息 单元 ， 比 如 一 根 直线 。Tokens 本 身 就 是 “世界 模型 ”， 它 是 人 类 用 于 拱 
建安 伟 的 知识 殿堂 的 最 小 “世界 模型 ”。 人 类 在 进化 过 程 中 ， 形 成 了 采用 Tokens 


这 样 的 “模型 ”来 识别 周围 信息 的 “模式 识别 ”能 力 ， 极 大 的 提升 了 信息 识别 的 
能 效 比 。 这 是 进化 带 给 我 们 的 礼物 。 

如 果 我 们 把 从 “宇宙 大 爆炸 ”到 “现在 ”， 所 有 事物 的 “Tokens”， 按 照 空间 、 时 间 
次 序 排列 起 来 。 我 们 就 获得 了 一 个 信息 张 量 。 它 就 是 人 类 拥有 的 全 部 知识 。 

面 对 这 样 的 知识 宝库 ， 如 果 我 们 宇宙 之 外 的 智能 体 想 了 解 它 ， 它 们 会 对 这 些 
Tokens 做 统计 。 

第 一 个 问题 “我 们 有 多 少 种 独立 的 Token”? 在 我 们 的 方案 中 ， 相 似 性 关 
系 回 答 了 这 个 问题 。 第 二 个 问题 : “每 一 种 Token 的 数量 分 布 ”? 在 我 们 的 方案 
中 ， 重 复 性 关系 回答 了 这 个 问题 。 第 三 个 问题 : “Tokens 之 间 是 怎么 排列 的 ”? 
在 我 们 的 方案 中 , 临近 性 关系 回答 了 这 个 问题 。 我 们 可 以 看 到 , 在 我 们 的 方案 中 ， 
通过 链 式 联想 激活 过 程 ， 记 忆 和 遗忘 机 制 ， 就 是 对 信息 做 统计 学 意义 上 的 描述 ! 

在 大 模型 的 注意 力 机 制 中 ， 通 过 Tokens 之 间 两 两 相关 性 ， 来 推测 Tokens 组 
合 相 关 性 。 然 后 再 次 通过 两 两 相关 性 ， 来 推测 更 大 Tokens 组 合 相 关 性 。 这 个 过 
时 经 过 多 次 迭代 ， 就 能 获得 不 同 Tokens 组 合 彼 此 之 间 的 相关 性 。 而 预 训练 过 程 ， 
就 是 通过 试 错 法 (深度 学 习 ) ,来 寻找 正确 的 “最 优 坐 标 基底 ”。 在 注意 力 机 制 
的 帮助 下 ， 所 获得 的 “最 优 坐 标 基底 ”只 是 针对 “常见 信息 ”而 言 。 这 个 过 程 本 
质 就 是 贝 叶 斯 推理 过 程 : 通过 部 分 已 知 概 率 ， 来 推测 某 种 特定 Tokens 的 条 件 概 
率 


在 我 们 的 方案 中 ，Tokens 之 间 的 相关 性 ， 是 通过 归纳 法 来 获得 的 。 链 式 联想 
激活 过 程 , 是 利用 预 训练 获得 的 相关 性 (部 分 已 知 概率 ), 来 获得 某 种 特定 Tokens 
可 能 出 现 的 条 件 概 率 。 而 链 式 联想 激活 过 程 ， 就 是 寻找 相关 性 〈 注 意 力 机 制 的 推 
理 过 程 》; 而 记忆 和 遗忘 机 制 ， 就 是 一 种 归纳 法 。 

7.2 注意 力 机 制 的 核心 就 是 创建 “常识 ”。 

知识 就 是 Tokens 的 排列 方式 ， 常 识 就 是 常见 Tokens 的 排列 方式 9。 目前 大 
模型 的 核心 问题 就 是 它 把 人 类 的 知识 (Tokens 的 排列 方式 ) ， 转 化 为 了 它 自 己 的 
一 套 知 识 体系 (因为 深度 学 习 破 坏 了 原 有 Tokens 的 时 空 关 系 ， 导 致 大 模型 的 知 
识 ， 人 类 难以 理解 ， 无 法 模仿 ) ， 它 用 它 自 己 的 知识 体系 来 解决 问题 ， 然 后 再 翻 
WESS AS. 所 以 , 深度 学 习 破 坏 了 原 有 Tokens 的 时 空 关 系 , 是 指 它 破坏 了 Tokens 
原 有 的 、 人 类 可 以 理解 的 组 织 形 式 ， 而 转换 成 了 机 器 可 以 理解 的 组 织 形式 。 从 机 
器 的 角度 看 ， 它 保留 了 Tokens 的 组 织 方式 ， 因 为 它 正确 的 找 出 了 “常见 信息 ”。 
但 从 人 类 的 角度 看 ， 它 产生 的 知识 ， 和 人 类 创建 的 知识 ,无 法 直接 互联 和 互通, 无 
法 直接 相互 借用 。 

因为 两 套 体系 的 底层 语言 彼此 无 法 沟通 ， 所 以 人 类 难以 给 机 器 赋予 “先天 知 
识 ”( 比 如 先天 需求 、 先 天 奖 罚 函数 和 先天 情绪 函数 ) ， 所 以 只 能 采用 后 天 补救 
的 方式 , 采用 RLHF, 或 者 采用 外 挂 知识 库 , 来 解决 部 分 问题 , 而 且 只 能 通过 “yes” 
or “No” 来 沟通 ， 这 样 的 机 器 人 ， 只 能 是 一 个 “ 照 本 宣 科 ”的 “ 书 采 子 ”， 无 
法 真正 地 灵活 解决 问题 。 

所 以 , 在 我 们 的 方案 中 ， 最 核心 的 是 要 不 破坏 Tokens 原 有 时 间 、 空 间 组 织 形 
式 下 ， 建 并 “常识 ”， 并 且 需 要 包含 机 器 的 “主观 常识 ”。 

为 了 不 破坏 Tokens 原 有 了 时间、 空间 组 织 形式 下 ,建立 “和 常识”， 我 们 采用 了 
信息 Tokens 化 ， 并 保留 时 间 、 空 间 信息 存储 ， 并 采用 了 链 式 联想 激活 过 程 ， 并 
采用 了 记忆 和 遗忘 机 制 来 实现 Tokens 之 间 的 链 式 激活 值 传递 关系 的 归纳 。 同 时 ， 
我 们 模仿 “常识 ”的 组 织 形式 ， 预 置 了 代表 先天 的 需求 、 先 天 交 寡 函数 和 先天 情 
绪 函 数 的 Tokens 组 合 。 然 后 让 机 器 按照 趋 利 避 害 的 原则 ， 自 主 决策 ， 自 我 进化 ， 


围绕 先天 知识 不 断 扩展 记忆 库 , 形成 整个 知识 网 络 , 从 而 创建 “客观 常识 ”和 “ 主 
观 常识 ”。 
7.3 我 们 只 完成 一 件 事 : “创建 常识 ”。 

为 了 “创建 常识 ”， 要 先 解 决 了 (1) “给 机 器 赋予 自我 需求 ”。 

为 了 解决 (1) ， 就 要 先 解决 (2) “如 何 创建 能 理解 的 知识 ”问题 。 

为 了 解决 2) ， 要 解决 “不 使 用 深度 学 习 ， 如 何 创建 全 连接 知识 网 络 ” 的 
问题 。 然 后 就 可 以 实现 主观 Tokens 和 客观 Tokens 通过 注意 力 机 制 ， 建 立 连 接 关 
系 。 这 就 是 常识 。 

主观 Tokens 和 客观 Tokens 建立 关系 ， 就 是 励 函 数 的 “前 置 化 ”+“ 步 又 化 ”， 
就 能 通过 “ 趋 利 避 害 ”来 实现 “通用 决策 能 力 ”。 在 “自我 需求 ”的 驱动 下 ， 机 
器 就 能 实现 “自我 进化 ”。 

7.4 我 们 建立 一 个 婴儿 Al 。 

“建立 一 个 婴儿 机 器 ,然后 终身 学 习 ， 自我 成 长 ”。 这 个 想法 已 经 很 多 年 了 ， 

但 我 们 是 第 一 个 提出 详细 解决 步骤 的 团队 。 


一 个 简单 的 示例 


下 面 ， 我 们 通过 一 个 例子 ， 来 说 明 机 器 如 何 决策 和 响应 。 

Be: 老 王 去 外 地 度假 ， 带 了 一 个 助理 机 器 人 ， 住 进 了 酒店 房间 .… 

老 王 : “ 喂 ..”。 

机 器 人 : 记忆 库 中 有 很 多 Tokens 处 于 激活 状态 ， 但 这 些 被 激活 的 Tokens 里 
面 ， 没 有 激活 值 超过 A1 (A1 是 一 个 预 设 阔 值 ) 的 奖励 符号 ， 也 没有 激活 值 超过 
P1 (P1 是 一 个 预 设 阔 值 ) 。 

它 处 于 持续 接收 传感器 传 来 的 外 部 信息 和 内 部 信息 ， 并 采用 低 分 辩 率 优先 提 

取 这 些 信 息 中 的 Tokens， 存 入 记忆 库 。 按 照 同 样 的 流程 ， 给 这 些 Tokens 赋予 初 
始 激活 值 ， 由 于 没有 高 激活 值 的 奖励 符号 / 惩 避 符号 ， 所 以 按照 预定 程序 ， 给 
这 些 Tokens 赋予 的 激活 值 比较 低 ， 所 以 在 随后 的 链 式 联想 激活 过 程 中 ， 激 活 值 
传播 范围 很 小 ， 链 式 激活 过 程 很 快 完成 。 
机 器 开始 更 新 记忆 值 。 由 于 被 激活 的 Tokens 获得 的 激活 值 低 (因为 初始 激活 
值 低 ， 激 活 值 传播 范围 小 ) ， 所 以 它们 增加 的 记忆 值 很 小 ， 很 多 信息 短 时 间 就 会 
被 忘记 。 同 时 ， 由 于 记忆 库 中 的 奖励 符号 、 惩 罚 符号 获得 的 激活 值 都 比较 低 ， 也 
就 是 潜在 的 奖励 ， 和 港 在 的 惩罚 都 比较 小 。 所 以 机 器 形成 的 最 佳 决策 路 径 就 是 继 
续 接 受信 息 。 这 是 因为 付出 电量 本 里 是 一 种 惩罚 ， 如 果 没 有 获得 奖励 ， 那 么 最 优 
决策 就 是 不 浪费 电量 。 

每 一 次 链 式 联想 激活 过 程 完成 后 ， 机 器 都 需要 查看 有 没有 激活 值 超过 预 设立 
值 的 奖励 或 者 惩 昼 符 号 。 这 种 情况 下 ， 机 器 形成 的 最 优 响 应 就 是 : 采用 低 分 辨 率 
提取 这 些 信息 中 的 Tokens， 存 入 记忆 库 。 按 照 同样 的 流程 ， 上 述 过 程 循环 进行 。 

SE ER, 音频 处 理 系统 传 入 了 一 连 串 音频 Tokens (依然 采 用 低 分 辩 率 提取 的 )， 
这 些 Tokens, 按照 同样 的 流程 ， 被 赋予 比较 低 的 初始 激活 值 ， 并 进行 链 式 联想 激 
活 过 程 。 这 次 输入 的 Tokens 中 ， 有 些 Tokens 在 链 式 传播 过 程 中 ， 因 为 相似 性 ， 
激活 了 记忆 库 中 很 多 相似 的 Tokens， 这 些 Tokens 和 很 多 奖励 、 惩 罚 符号 之 间 存 
在 紧密 的 激活 值 传递 关系 , 所 以 这 一 次 进行 的 激活 值 链 式 传播 过 程 ,有 很 多 奖励 
和 惩罚 符号 被 激活 了 。 (这 些 Tokens 通常 就 是 主人 的 声 纹 特征 ， 比 如 特有 的 音 
色 ) 。 


Co 


由 于 这 一 次 有 很 多 奖励 、 惩 罚 符 号 获得 了 超过 预 设 的 激活 值 。 假 设 有 N 个 奖 
励 符号 和 M 个 惩罚 符号 的 激活 值 超过 预 设 值 。 机 器 以 N 个 奖励 符号 为 目标 ， 也 
以 M 个 惩罚 符号 为 目标 ， 这 样机 器 自主 同时 建立 了 N+M 个 目标 。 所 以 ， 在 我 们 
的 方案 里 ， 目 标 是 机 器 自主 产生 的 ， 是 同时 产生 多 目标 的 ， 而 不 是 人 为 预 设 一 个 
总 的 奖励 函数 。 

在 我 们 的 方案 中 ， 机 器 的 一 切 响 应 ， 都 是 以 趋 利 避 害 为 原则 。 所 以 机 器 创 
建 N+M 个 目标 后 ， 机 器 规划 自己 的 响应 路 径 原则 是 : 提高 奖励 符号 的 激活 值 发 
生 概 率 , 降低 惩罚 符号 的 激活 值 发 生 概 率 。 所 以 机 器 的 决策 , 就 是 围绕 实现 奖励 ， 
避免 惩罚 展开 的 。 

机 器 首先 处 理 激 活 值 最 高 的 那些 奖 / 如 Tokens， 可 能 是 一 个 或 者 多 个 惩 昼 
Tokens; 在 记忆 库 中 ， 向 这 个 惩罚 Tokens 传递 激活 值 的 传播 通路 可 能 是 : 主人 的 
声 纹 底层 特征 输入 , 通过 相似 性 激活 率 记 忆 库 中 很 多 主人 的 声 纹 特征 ; 这 些 激活 
值 在 记忆 库 中 进一步 链 式 传播 激活 值 。 

在 这 些 记 忆 中 ， 有 一 个 惩罚 Tokens 的 激活 值 很 高 。 而 能 获得 高 激活 值 的 
Tokens， 无 非 就 是 几 种 cases: (1) 这 个 惩罚 Tokens 的 记忆 值 很 高 。 一 种 可 能 的 
原因 是 存储 它 时 ， 它 的 激活 值 很 高 ， 而 记忆 值 增 量 和 激活 值 正 相 关 。 另 外 一 种 原 
因 是 它 常 常 被 激活 ， 通 过 重复 获得 了 高 记忆 值 。 (2) 多 个 输入 Tokens， 通 过 不 
同 的 路 径 向 这 个 惩罚 Tokens 传递 了 激活 值 。 比 如 主人 的 “语气 Tokens”，“ 用 
i Tokens”，“ 主 人 的 状态 Tokens”，“ 主 人 的 表情 Tokens”、“ 目 前 环境 相关 
Tokens” 等 ， 如 果 这 些 Tokens 都 和 类 似 的 惩罚 符号 在 记忆 中 存在 紧密 激活 关系 ， 
那么 它们 一 起 完成 激活 值 链 式 传播 过 程 后 ， 和 它们 都 相关 的 Tokens 就 可 能 获得 
高 激活 值 。 (3) 这 个 惩罚 Tokens 和 特定 的 输入 Tokens 之 间 存 在 紧密 激活 值 传递 
关系 。 也 就 是 说 ， 它 们 在 记忆 中 ， 总 是 伴随 出 现 。 所 以 它们 之 间 形 成 了 “临近 关 
系 ” 和 “高 记忆 值 关 系 ”， 并 且 传 播 路 径 很 短 ， 激 活 值 传 递 系数 高 。 所 以 注意 力 
机 制 ， 既 可 能 通过 综合 推理 〈 比 如 多 个 Tokens 向 特定 奖 罚 符号 传递 激活 值 ， 综 
合 经 验 ) ， 又 可 能 采用 特例 推理 (比如 特定 的 激活 值 紧 密 传递 路 径 ， 特定 经 验 )， 
形成 了 对 信息 的 注意 机 制 推 理 。 

奖 罚 Tokens 的 激活 值 高 ， 还 可 能 来 自 于 之 前 的 Tokens 输入 所 建立 的 激活 值 
分 布 。 尽 管 高 激活 值 Tokens 的 激活 值 会 随时 间 而 消退 ， 但 如 果 激 活 值 足 够 高 ， 
它 将 在 更 长 时 间 内 影响 机 器 的 决策 。 这 和 人 类 很 相似 。 

在 这 个 例子 中 , 激活 值 传播 路 径 构 成 的 传播 网 络 包含 的 Tokens 非常 多 , 难以 
表述 。 但 通常 是 语言 符号 的 激活 值 最 高 (因为 它们 最 常用 ， 记 忆 值 最 高 )， 如 果 
这 些 语 言 符 号 按照 它们 的 时 空 次序 组 合 起 来 ， 大 意 可 能 是 “不 要 躺 着 (前 因 )， 
MEAT. BE (后果) ”。 

于 是 机 器 立即 开始 搜索 最 优 响 应 路 径 ， 用 于 避免 这 个 惩罚 符号 发 生 的 概率 。 
机 器 做 决策 的 原则 是 提高 奖励 符号 发 生 概 率 ， 降 低 征 如 符号 发 生 概率 ; 而 具体 采 
用 的 方法 是 : 针对 传播 激活 值 给 惩罚 符号 的 路 径 上 的 概念 , 降低 它们 发 生 的 概率 ; 
针对 传播 激活 值 给 奖励 符号 的 路 径 上 的 概念 , 增加 它们 发 生 的 概率 ; 对 这 些 概念 
又 具体 如 何 增加 、 降 低 概率 呢 ? 每 个 概念 是 记忆 库 中 局 部 紧密 网 络 ， 机 器 需要 降 
低 这 个 局 部 紧密 网 络 中 高 激活 值 Tokens 发 生 的 概率 ， 从 而 降低 这 个 奖 罚 逻辑 链 
路 的 发 生 概 率 。 

比如 在 机 器 的 记忆 中 ,被 主人 “采用 相似 的 Tokens 训斥 ”时 ， 记 忆 中 存储 了 
自己 当时 的 内 部 传感器 数据 ， 也 存储 了 当时 外 部 传感器 数据 ， 其 中 一 些 Tokens 
因为 后 来 没有 再 次 重复 , 没有 获得 增强 记忆 而 被 遗忘 了 。 但 能 和 这 个 “惩罚 符号 ” 


共同 重复 出 现 的 Tokens HEF, WWA MWA” IRH Tokens、 以 及 一 些 “ 代 表 
特定 时 间 Tokens”、 以 及 “代表 特定 场合 Tokens”， 它 们 因为 重复 性 ， 获 得 了 更 
高 的 记忆 值 。 并 因为 是 能 重复 出 现 的 组 合 ,每 一 次 彼此 都 推 高 对 方 的 激活 值 ， 所 
以 获得 了 远 比 重复 性 更 高 的 记忆 值 。 而 且 因为 它们 能 重复 ， 所 以 它们 的 组 合 ， 
一 次 都 能 获得 更 高 的 激活 值 ， 所 以 它们 更 加 容易 被 激活 ， 从 而 更 加 容易 被 记忆 ， 
所 以 这 是 一 个 正 癌 循环 过 程 。 这 就 是 经 验 总 结 过 程 。 

如 果 有 一 次 ， 在 类 似 的 环境 下 ， 主 人 却 表扬 了 机 器 ， 这 样 的 记忆 后 续 也 会 被 
参与 决策 。 所 以 ， 在 类 似 的 环境 下 ， 各 种 Tokens 既 可 能 向 惩罚 符号 传递 激活 值 ， 
也 可 能 向 奖励 符号 传递 激活 值 。 所 以 ， 机 器 的 决策 是 综合 统计 所 有 的 奖 昼 值 ， 既 
可 能 考虑 如 何 获 得 奖励 ， 又 会 考虑 如 何 避 免 惩 罚 ， 所 以 机 器 在 选择 响应 路 径 时 ， 
有 些 局 部 响应 路 径 既 是 通 向 奖励 的 路 径 , 也 是 通 向 惩罚 的 路 径 ， 所 以 机 器 需要 对 
这 些 路 径 进 行 细 分 ， 来 确定 什么 是 通 癌 奖励 的 路 径 ， 什 么 是 通 向 惩罚 的 路 径 。 而 
这 个 细 分 过 程 ， 就 是 给 这 个 路 径 增 加 更 多 的 Tokens， 从 而 形成 多 条 细 分 路 径 〈 比 
如 不 同 的 场景 下 ， 或 者 不 同 的 时 间 点 ， 或 者 不 同 的 前 因 等 ) ， 这 样机 器 就 可 以 通 
过 细 分 路 径 来 确定 自己 的 响应 ， 这 就 是 分 段 模仿 的 核心 。 

所 以 ， 我 们 的 机 器 不 需要 通过 修改 过 去 的 参数 来 容纳 新 的 “Fine tuning” o 
它 只 是 需要 通过 积累 记忆 来 实现 “Fine tuning”。 它 可 以 进行 任何 深度 的 “Fine 
tuning”， 可 以 进行 任何 领域 的 “Fine tuning”， 而 且 还 可 以 进行 无 数 领域 天 加 
的 “Fine tuning”， 而 不 会 发 生 “ 灾 难 性 遗 态 ”。 这 是 因为 它 并 不 会 修改 过 去 的 
知识 参数 ， 而 只 是 简单 的 扩 增 网 络 。 

在 本 例 中 ， 假 设 是 白天 ， 假 设 机 器 正身 着 (节省 点 电 ， 获 得 奖励 ) ， 当 主人 
的 声 纹 激活 惩罚 符号 后 , 机 器 需要 避免 被 激活 的 惩罚 符号 发 生 概率 ,提高 被 激活 
的 奖励 符号 发 生 概率 。 那 么 ， 这 里 至 少 有 两 种 Case，1， 降 低 “ 丹 着 ”概念 的 发 生 
概率 ， 避 免 惩 罚 《〈 比 如 被 训斥 ) ; 2， 提 高 “ 丹 着 ”概念 的 发 生 概 率 ， 获 得 奖励 ( 比 
如 省 电 ) 。 这 时 机 器 就 需要 按照 趋 利 避 害 原则 ， 做 出 最 优选 择 。 这 时 ， 机 器 就 要 
综合 各 种 响应 路 径 ， 对 比 统计 奖 罚 值 。 

假设 这 时 机 器 的 电量 充足 ， 省 电 带 来 的 奖励 很 小 。 在 完成 链 式 联想 激活 过 程 
后 ， 只 有 一 个 惩罚 符号 获得 了 高 激活 值 。 机 器 按照 趋 利 避 害 原 则 ， 会 选择 避免 惩 
加， 因为 这 样 的 统计 下 奖励 值 最 高 。 所 以 机 器 在 利益 最 大 化 驱使 下 ,会 把 避免 惩 
习作 为 目标 ， 开 始 建立 响应 。 

假设 这 时 机 器 的 电量 不 足 ， 省 电 带 来 的 奖励 很 大 〈 这 里 假设 机 器 必须 躺 下 充 
电 ) 。 在 完成 链 式 联想 激活 过 程 后 ， 有 一 个 惩罚 符号 获得 了 高 激活 值 ， 还 有 一 个 
奖励 也 符号 获得 了 高 激活 值 。 机 器 按照 趋 利 避 害 原则 ， 会 同时 建立 两 个 目标 : SE 
现 奖 励 ， 避 人 免 惩罚 。 因 为 这 样 的 统计 下 奖励 值 最 高 。 所 以 机 器 在 利益 最 大 化 驱使 
下 ， 会 把 获得 奖励 + 避免 惩 避 作为 目标 ， 开 始 建立 响应 。 

假设 机 器 的 电量 充足 ， 那 么 现在 ， 机 器 创建 了 第 2 级 目标 RA E 
所 获得 的 激活 值 。 于 是 ,在 第 2 级 目标 的 约束 下 ， 机 器 寻找 向 “ 躺 着 "概念 传递 激 
活 值 的 传播 路 径 , 并 创建 第 3 级 目标 : 降低 这 些 传播 路 径 上 概念 的 激活 值 。 于 是 ， 
机 器 发 现 向 “ 庙 着 "概念 传播 激活 值 的 主要 路 径 是 一 组 自身 状态 传感器 的 输入 。 于 
是 ， 机 器 创建 了 第 3 级 目标 : 降低 这 些 输入 Tokens 的 概率 。 

机 器 会 记录 每 一 次 训练 的 各 种 内 外 参数 ， 采 用 记忆 和 遗忘 机 制 来 优化 ， 通过 
奖 罚 反馈 ， 鼓励 机 器 模仿 获得 奖励 的 参数 ， 避 开 获 得 惩罚 的 参数 。 通 过 这 样 的 方 
Xo 参数 组 合 + 奖励 + 内 外 环境 三 者 之 间 就 建立 了 经 验 性 的 连接 关系 。 这 本 质 上 是 
一 个 强化 学 习 过 程 。 当 然 ， 人 类 也 可 以 模仿 其 形式 , 给 机 器 置 入 先天 的 知识 (了 驱 


动 相 关 )， 或 者 利用 人 类 已 经 积累 的 经 验 , 直接 修改 机 器 的 知识 ,使 其 尽快 收敛 。 

所 以 机 器 在 不 同 的 环境 下 , 环境 Tokens 会 自动 激活 最 相关 的 记忆 ,通过 模仿 
这 些 经 验 , 向 机 占 的 运动 系统 传递 相似 的 参数 组 合 (包含 参数 类 型 和 它们 的 时 间 
次 序 ， 这 些 过 程 都 是 自动 完成 的 ) 。 这 样机 器 就 可 以 在 各 种 环境 下 站 立 起 来 ， 降 
低 “ 躺 着 ”相关 Tokens 的 发 生 概 率 。 

假设 这 时 机 器 的 电量 不 足 ， 机 器 实现 奖励 的 经 验 会 让 它 继 续 髓 着 ， 让 充电 相 
关 的 Tokens 实现 概率 提升 。 而 避免 惩罚 的 经 验 ， 它 会 模仿 过 去 的 经 验 ， 给 主人 
解释 自己 这 么 做 的 原因 。 然 后 机 器 创建 了 第 2 级 目标 : 提升 “充电 ”概念 所 获得 的 
激活 值 。 模 仿 过 去 避免 “惩罚 ”的 经 验 。 所 以 机 器 可 能 创建 第 3 级 目标 : “给 主 
人 解释 自己 行为 的 原因 ”， 因 为 这 样 的 “Tokens 组 合 ” 在 记忆 中 ， 和 “避免 惩罚 ” 
这 样 的 Tokens 组 合 之 间 存 在 紧密 的 激活 值 传递 和 关系， 所 以 机 器 的 目标 就 是 提升 
和 特定 Tokens 组 合 〈 给 主人 解释 自己 行为 的 原因 ) ”的 发 生 概 率 。 所 以 下 一 级 
决策 相关 的 Tokens 组 合 就 是 : 语言 组 织 相 关 经 验 就 会 被 激活 。 

这 个 过 程 迭 代 进 行 ， 每 一 次 都 有 新 的 奖 罚 符号 被 激活 。 机 器 通过 统计 这 些 奖 
罚 符 号 的 激活 值 ， 直到 发 现 奖 罚 符号 的 激活 值 收敛 为 止 。 这 时 机 器 就 建立 了 最 优 
响应 路 径 。 

然后 ， 机 器 进入 模仿 执行 过 程 。 机 器 的 决策 路 径 ， 需 要 迭代 分 解 到 底层 驱动 
参数 为 止 ， 才 能 通过 模仿 经 验 中 的 参数 配置 ， 来 发 出 驱动 命令 ， 从 而 模仿 执行 。 

而 在 实际 情况 中 ， 经 验 和 现实 总 是 只 能 部 分 匹配 ， 所 以 经 验 和 现实 之 间 ， 也 
只 能 通过 模仿 它们 共有 的 Tokens 组 合 方式 来 实现 泛 化 。 

这 些 路 径 中 ， 那 些 高 激活 值 Tokens 组 成 的 路 径 ， 就 是 顶层 模仿 路 径 。 如 果 模 
仿 路 径 中 不 包含 直接 的 底层 驱动 命令 组 合 , 那么 增加 更 多 的 Tokens (更 低 激活 值 
Tokens) 进来 , 这 时 模仿 路 径 就 变 成 了 更 多 Tokens 形成 的 多 段 路 径 的 不 同 组 合 形 
式 。 这 就 是 分 段 模仿 的 含义 。 

也 就 是 说 , 我 们 面 对 一 个 大 的 路 径 , 没有 合适 的 经 验 直 接 模 仿 ,那么 就 细 化 ， 
分 解 成 多 个 小 的 响应 路 径 段 ， 针 对 每 一 个 小 的 路 径 段 ， 重 新 来 寻找 合适 的 经 验 来 
泛 化 经 验 。 如 果 还 是 不 能 分 解 到 直接 的 底层 驱动 命令 组 合 ， 那 么 重复 这 个 过 程 ， 
通过 增加 更 多 的 Tokens, 把 这 个 响应 路 径 分 解 成 更 多 的 小 路 径 段 ， 然 后 寻找 合适 
的 经 验 来 泛 化 经 验 。 如 果 还 是 不 能 分 解 到 直接 的 底层 驱动 命令 组 合 ,那么 重复 这 
个 过 程 ， 直 到 分 解 为 直接 的 底层 驱动 命令 组 合 为 止 。 

上 面 过 程 不 断 迭 代 进 行 。 时 时 刻 刻 都 可 能 有 新 的 Tokens 输入 。 每 当 新 的 
Tokens 输入 后 ， 机 器 都 需要 再 次 进行 链 式 联想 激活 过 程 。 完 成 后 ， 记 忆 库 中 的 激 
活 值 分 布 发 生 了 变化 ， 所 以 机 器 需要 重新 进行 决策 过 程 。 所 以 在 这 个 过 程 中 ， 机 
器 的 最 优 决 策 有 可 能 是 放下 目前 部 分 目标 ， 开 始 追 求 最 新 产生 的 目标 。 

所 以 ， 我 们 的 机 器 会 产生 自己 的 目标 ， 并 可 以 不 断 的 改变 自己 的 目标 ， 所 以 
它 的 决策 是 非常 灵活 的 ， 是 时 刻 和 环境 相 匹 配 的 。 

所 以 在 上 面 这 个 例子 中 ， 机 器 可 能 的 执行 结果 是 :立刻 站 起 来 ， 同 时 提高 声 
音 处 理 系统 的 分 辨 率 ， 同 时 扭头 去 观察 主人 的 姿态 、 动 作 和 表情 ， 但 直到 这 个 时 
刻 ， 主 人 可 能 刚刚 说 完 “ 喂 ...” 字 ， 后 面 的 话 还 没有 开始 。 

所 以 ， 我 们 的 机 器 是 类 人 智能 ， 它 对 信息 的 理解 ， 来 自 于 它 自身 的 经 历 ， 而 
不 是 来 自 于 统计 过 程 。 也 只 有 这 样 ， 我 们 的 机 器 才 可 能 有 个 性 化 服务 。 

一 千 个 家 庭 主 妇 ， 有 一 千 种 不 同 的 要 求 。 通 过 知识 统计 获得 的 人 工 智能 ， 无 
法 实时 更 新 知识 的 机 器 人 ， 永 远 无 法 走 进 家 庭 ， 永 远 无 法 走 进 主妇 们 的 心 。 它 们 
的 落地 场景 将 非常 有 限 ， 而 我 们 的 方案 ， 才 是 真正 的 通用 人 工 智 能 ,， 它 也 许 将 改 


变 世 界 的 面貌 。 


9， 结 束 语 


我 们 认为 ， 人 工 智能 的 发 展 可 以 近似 分 为 不 同 的 阶段 (1) “特征 探索 ” 
阶段 。 深 度 学 习 之 前 ， 主 要 集中 在 “人 工 探索 ”阶段 。 在 深度 学 习 之 后 ， 集 中 在 
“机 器 探索 ”阶段 。 C20 在 实现 了 真正 的 注意 力 〈Transformer) 之 后 ， 因 为 机 
器 的 “知识 坐标 基底 艇 ”和 人 类 “知识 坐标 基底 艇 (概念 ) ”初步 对 齐 后 ， 机 器 
实现 了 “知识 泛 化 ”。 面 对 人 类 的 任务 ， 机 器 可 以 通过 “知识 泛 化 ”表现 出 一 定 
的 智能 。 

一 维 注 意 力 机 制 ， 带 来 了 语言 大 模型 。 二 维 注 意 力 机 制 ， 带 来 了 图 像 泛 化 。 
三 维 注意 力 机 制 ， 能 实现 3D 创造 能 力 。 四 维 (三维 + 时 间 ) 注意 力 机 制 ， 能 实 
现 动态 过 程 的 泛 化 : 会 带 来 视频 生成 ， 也 会 带 来 限定 场景 下 机 器 人 服务 。 

但 我 们 认为 ， 只 有 增加 “生命 力 : 第 五 给， 自我 需求 ”， 才 可 能 给 机 器 智能 
带 来 真正 的 “灵魂 ”。 而 大 模型 走 的 这 条 路 ， 注 定 了 它 无 法 实现 “第 五 维度 ”。 
而 我 们 的 方案 能 给 机 器 赋予 “生命 ”所 以 它 才 可 能 成 为 真正 的 “通用 人 工 智 能 ”。 

所 以 ， 我 们 认为 人 工 智 能 需要 发 展 到 下 一 个 阶段 : “自主 互动 ”阶段 。“ 自 
主 ” 意 味 着 机 器 不 再 是 沉默 的 “机 器 ”， 它 能 够 自发 地 产生 行为 (这 等 同 于 给 自 
己 编程 》， 机 器 会 自我 探索 知识 (比如 主动 和 环境 互动 ， 获 得 知识 ) 。“ 互 动 ” 
意味 着 机 器 可 以 和 环境 实时 互动 ， 实 时 更 新 自己 的 知识 ， 并 能 进行 连续 决策 , 在 
陌生 环境 下 完成 复杂 的 任务 。 

如 何 走向 真正 的 通用 人 工 智 能 ， 很 多 著名 学 者 都 提出 了 自己 的 看 法 ， 比 如 
Lecun 教授 提出 的 “世界 模型 ”， 朱 松 纯 教 授 也 提出 了 实现 通用 人 工 智能 的 四 个 
特征 : (1) 能 够 执行 无 限 的 任务 ， 〈2) 能 够 自主 生成 新 任务 ， G) 有 价值 系 
统 驱动 ， (4) 拥有 反映 真实 世界 的 世界 模型 。 显 然 ， 我 们 的 方案 ， 就 是 对 Lecun 
教授 、 朱 松 纯 教授 思想 的 响应 。 

通用 人 工 智 能 是 人 工 智 能 的 初 心 , 也 是 人 工 智能 的 桂冠 。 我 们 提出 了 一 套 实 
现 通用 人 工 智能 的 技术 方案 ， 包 含有 Step by Step 的 实现 步 又。 在 参考 文献 
[25][26][27][28] 中 ,我们 通过 专利 的 形式 ,详细 揭示 了 实现 这 条 道路 的 技术 步 又 。 
它 也 许 将 是 一 条 引导 人 类 走向 通用 人 工 智能 的 正确 道路 。 
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